关于InternVL定位多类别时的问题 #897

daihuidai · 2025-02-10T08:28:04Z

您好，我根据官方文档制作了V3Det格式的问答结构，正常训练、推理，对于一张图片只有一类目标时基本可以正常检测到，这一类不论一个或多个目标大部分可以检测出来，例如一个人、五个人都能检测出来。
但是如果一张图出现多个类别时，就只能检测出一个类别，例如训练包含了人和车，一张图有两个人、两辆车，就只能检测出其中一个类别的所有目标。

训练较为充分，数据量也不少。

训练问答样例结构如下：
{"id": 24770, "image": "train/1707221130212.jpg", "width": 1600, "height": 900, "conversations": [{"from": "human", "value": "<image>\n请检测下图中的所有目标并标记坐标位置"}, {"from": "gpt", "value": "<ref>道路上停放的车辆</ref><box>[[0,390,170,754]]</box>\n<ref>道路上出现的人</ref><box>[[31,665,99,740],[95,667,141,727],[0,397,168,761]]</box>\n"}]}

这个问题困扰了很久，我尝试了很多问答结构都没法解决多类别的检测，请问这是什么问题呢？

我考虑过下面几种情况：
1：训练代码只读取了第一个类别的box；
2：训练的损失函数；
3：模型的输出问题；

The text was updated successfully, but these errors were encountered:

lll2343 · 2025-02-11T04:55:06Z

Hi,
可以构造成多轮对话，每一次检测一个类别。

daihuidai · 2025-02-11T05:45:50Z

您好，对于检测任务构造多轮对话检测一张图片不太符合一般的业务场景，我看官方提供的V3Det样例就是多类别同时检测，说明模型应该是支持的。
请问如果要同时检测多类别除了数据按V3Det构造，其他方面应该如何修改呢？

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于InternVL定位多类别时的问题 #897

关于InternVL定位多类别时的问题 #897

daihuidai commented Feb 10, 2025

lll2343 commented Feb 11, 2025

daihuidai commented Feb 11, 2025

关于InternVL定位多类别时的问题 #897

关于InternVL定位多类别时的问题 #897

Comments

daihuidai commented Feb 10, 2025

lll2343 commented Feb 11, 2025

daihuidai commented Feb 11, 2025