Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于InternVL定位多类别时的问题 #897

Open
daihuidai opened this issue Feb 10, 2025 · 2 comments
Open

关于InternVL定位多类别时的问题 #897

daihuidai opened this issue Feb 10, 2025 · 2 comments

Comments

@daihuidai
Copy link

您好,我根据官方文档制作了V3Det格式的问答结构,正常训练、推理,对于一张图片只有一类目标时基本可以正常检测到,这一类不论一个或多个目标大部分可以检测出来,例如一个人、五个人都能检测出来。
但是如果一张图出现多个类别时,就只能检测出一个类别,例如训练包含了人和车,一张图有两个人、两辆车,就只能检测出其中一个类别的所有目标。

训练较为充分,数据量也不少。

训练问答样例结构如下:
{"id": 24770, "image": "train/1707221130212.jpg", "width": 1600, "height": 900, "conversations": [{"from": "human", "value": "<image>\n请检测下图中的所有目标并标记坐标位置"}, {"from": "gpt", "value": "<ref>道路上停放的车辆</ref><box>[[0,390,170,754]]</box>\n<ref>道路上出现的人</ref><box>[[31,665,99,740],[95,667,141,727],[0,397,168,761]]</box>\n"}]}

这个问题困扰了很久,我尝试了很多问答结构都没法解决多类别的检测,请问这是什么问题呢?

我考虑过下面几种情况:
1:训练代码只读取了第一个类别的box;
2:训练的损失函数;
3:模型的输出问题;

@lll2343
Copy link
Collaborator

lll2343 commented Feb 11, 2025

Hi,
可以构造成多轮对话,每一次检测一个类别。

@daihuidai
Copy link
Author

您好,对于检测任务构造多轮对话检测一张图片不太符合一般的业务场景,我看官方提供的V3Det样例就是多类别同时检测,说明模型应该是支持的。
请问如果要同时检测多类别除了数据按V3Det构造,其他方面应该如何修改呢?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants