We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
您好,我根据官方文档制作了V3Det格式的问答结构,正常训练、推理,对于一张图片只有一类目标时基本可以正常检测到,这一类不论一个或多个目标大部分可以检测出来,例如一个人、五个人都能检测出来。 但是如果一张图出现多个类别时,就只能检测出一个类别,例如训练包含了人和车,一张图有两个人、两辆车,就只能检测出其中一个类别的所有目标。
训练较为充分,数据量也不少。
训练问答样例结构如下: {"id": 24770, "image": "train/1707221130212.jpg", "width": 1600, "height": 900, "conversations": [{"from": "human", "value": "<image>\n请检测下图中的所有目标并标记坐标位置"}, {"from": "gpt", "value": "<ref>道路上停放的车辆</ref><box>[[0,390,170,754]]</box>\n<ref>道路上出现的人</ref><box>[[31,665,99,740],[95,667,141,727],[0,397,168,761]]</box>\n"}]}
{"id": 24770, "image": "train/1707221130212.jpg", "width": 1600, "height": 900, "conversations": [{"from": "human", "value": "<image>\n请检测下图中的所有目标并标记坐标位置"}, {"from": "gpt", "value": "<ref>道路上停放的车辆</ref><box>[[0,390,170,754]]</box>\n<ref>道路上出现的人</ref><box>[[31,665,99,740],[95,667,141,727],[0,397,168,761]]</box>\n"}]}
这个问题困扰了很久,我尝试了很多问答结构都没法解决多类别的检测,请问这是什么问题呢?
我考虑过下面几种情况: 1:训练代码只读取了第一个类别的box; 2:训练的损失函数; 3:模型的输出问题;
The text was updated successfully, but these errors were encountered:
Hi, 可以构造成多轮对话,每一次检测一个类别。
Sorry, something went wrong.
您好,对于检测任务构造多轮对话检测一张图片不太符合一般的业务场景,我看官方提供的V3Det样例就是多类别同时检测,说明模型应该是支持的。 请问如果要同时检测多类别除了数据按V3Det构造,其他方面应该如何修改呢?
No branches or pull requests
您好,我根据官方文档制作了V3Det格式的问答结构,正常训练、推理,对于一张图片只有一类目标时基本可以正常检测到,这一类不论一个或多个目标大部分可以检测出来,例如一个人、五个人都能检测出来。
但是如果一张图出现多个类别时,就只能检测出一个类别,例如训练包含了人和车,一张图有两个人、两辆车,就只能检测出其中一个类别的所有目标。
训练较为充分,数据量也不少。
训练问答样例结构如下:
{"id": 24770, "image": "train/1707221130212.jpg", "width": 1600, "height": 900, "conversations": [{"from": "human", "value": "<image>\n请检测下图中的所有目标并标记坐标位置"}, {"from": "gpt", "value": "<ref>道路上停放的车辆</ref><box>[[0,390,170,754]]</box>\n<ref>道路上出现的人</ref><box>[[31,665,99,740],[95,667,141,727],[0,397,168,761]]</box>\n"}]}
这个问题困扰了很久,我尝试了很多问答结构都没法解决多类别的检测,请问这是什么问题呢?
我考虑过下面几种情况:
1:训练代码只读取了第一个类别的box;
2:训练的损失函数;
3:模型的输出问题;
The text was updated successfully, but these errors were encountered: