PaddleOCR项目数据格式要求与多文本标注问题 #14672
Unanswered
Jerry200404
asked this question in
Q&A
Replies: 1 comment
-
PaddleOCR 数据格式要求与多文本标注问题解答检测任务数据格式问题1. 格式强制性问题PaddleOCR官方推荐使用 JSON 格式 进行数据标注,主要是为了兼容性和易解析性。
需要自行 修改数据加载部分 的代码,以适配新的格式,但 不影响训练。 2. 手写体与印刷体的区分标注官方 JSON 格式 默认不区分 手写体和印刷体,但可以 在 JSON 标注字段中添加额外参数,例如: {
"image": "images/0_0/lhr_0_1000_01184616.jpg",
"annotations": [
{
"polygon": [0.58, 0.72, 0.86, 0.72, 0.86, 0.96, 0.58, 0.96],
"text": "воссоздать",
"type": "printed"
},
{
"polygon": [0.12, 0.35, 0.46, 0.35, 0.46, 0.62, 0.12, 0.62],
"text": "коммунизм",
"type": "handwriting"
}
]
} 这样可以在 训练时针对不同类型文本做数据增强或分类训练。 识别任务多文本标注问题1. 多标签标注方式PaddleOCR 默认使用单图单标签格式:
示例:
但在实际应用中,一张图片可能包含 多个俄语单词,如:
2. 解决方案方案 1:使用检测模型+识别模型
方案 2:手动切割图片
推荐的 PaddleOCR 适配方式
参考资料如果有更具体的需求或问题,欢迎继续讨论!🚀 Response generated by feifei-bot | chatgpt-4o-latest |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
进行俄语OCR项目开发(包含手写体和印刷体检测与识别),在数据标注和格式适配过程中遇到以下问题,恳请指导:
![Snipaste_2025-02-07_15-51-11](https://private-user-images.githubusercontent.com/145820822/412816813-0dfbcf24-8cf6-4002-8575-837a430a2aff.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3Mzk0ODM1NjEsIm5iZiI6MTczOTQ4MzI2MSwicGF0aCI6Ii8xNDU4MjA4MjIvNDEyODE2ODEzLTBkZmJjZjI0LThjZjYtNDAwMi04NTc1LTgzN2E0MzBhMmFmZi5qcGc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMjEzJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDIxM1QyMTQ3NDFaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT1iNzkzYjhiMWMyOGFjNjc5NmY1OTZiZTFkZDZjN2JjYzkwNmE4ZWNiMmUzMjBiZThjYjkzODBjZDlhN2E3MTI1JlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.BTwBfxWehDKe-H6YkxAkSw_E68QZ2dOH2Zaagj4qarQ)
一、检测任务数据格式问题
官方文档示例:
疑问点:
![Snipaste_2025-02-07_15-42-15](https://private-user-images.githubusercontent.com/145820822/412816965-dd1661a6-3009-4ab8-942b-f70938207e0d.jpg?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3Mzk0ODM1NjEsIm5iZiI6MTczOTQ4MzI2MSwicGF0aCI6Ii8xNDU4MjA4MjIvNDEyODE2OTY1LWRkMTY2MWE2LTMwMDktNGFiOC05NDJiLWY3MDkzODIwN2UwZC5qcGc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMjEzJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDIxM1QyMTQ3NDFaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT0xOTZiM2UyNDI2OWFjOWZlYjFmZGFkMThkODYxOTAwYTAxMGI2Y2Q5ZGQ0MmE0MDVkNjVmYjU2NmMxODdlYTVlJlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.ivFekaRY5mAvPF376l0zTm1ZK7lUvkoWEg7ckLpdQ2w)
1.格式强制性问题:
是否必须严格使用JSON格式?若自定义格式(如下文建议)是否可行?
2.手写体与印刷体的区分标注:
如何在JSON标注中明确区分印刷体(printed)和手写体(handwriting)?是否需要在标注字段中添加额外参数(如"type": "printed")?
自定义格式设想:
图像路径 x1,y1,x2,y1,x2,y2,x1,y2,标签类型 x1,y1,x2,y1,x2,y2,x1,y2,标签类型 ...
示例:
images/0_0/lhr_0_1000_01184616.jpg 0.58,0.72,0.86,0.72,0.86,0.96,0.58,0.96,printed ...
我在网上查到很多不一样格式,能否给出一个样板。
二、识别任务多文本标注问题
官方文档示例:
单图单标签格式:
![image](https://private-user-images.githubusercontent.com/145820822/412817519-4a2930c4-d69e-4e98-ade5-0475f5e9b53f.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3Mzk0ODM1NjEsIm5iZiI6MTczOTQ4MzI2MSwicGF0aCI6Ii8xNDU4MjA4MjIvNDEyODE3NTE5LTRhMjkzMGM0LWQ2OWUtNGU5OC1hZGU1LTA0NzVmNWU5YjUzZi5wbmc_WC1BbXotQWxnb3JpdGhtPUFXUzQtSE1BQy1TSEEyNTYmWC1BbXotQ3JlZGVudGlhbD1BS0lBVkNPRFlMU0E1M1BRSzRaQSUyRjIwMjUwMjEzJTJGdXMtZWFzdC0xJTJGczMlMkZhd3M0X3JlcXVlc3QmWC1BbXotRGF0ZT0yMDI1MDIxM1QyMTQ3NDFaJlgtQW16LUV4cGlyZXM9MzAwJlgtQW16LVNpZ25hdHVyZT1hMmFhZmZiOGRmMDcyOGNiYzc3MWMwZGU4ZDIyNmQ1MjFkMzNiYWMxMjFmMjM5N2FmYjkyMmNjMjYxZmExZjU2JlgtQW16LVNpZ25lZEhlYWRlcnM9aG9zdCJ9.l8tVkoCiQt_AsexmfiJlKJQ_CvCy9yURtUfpirKZ3JI)
图像路径 文本标签
示例:
test_images/img_1.jpg "воссоздать"
实际需求:
一张图片中包含多个俄语单词(如下图),需同时识别多个文本:
疑问点:
1.多标签标注方式:
是否支持单图多标签标注?例如:
images/0_0/lhr_0_1000_01184616.jpg воссоздать пивной Винничек коммунизм
若不支持,是否需要通过切割图片将每个单词单独处理?
补充说明:
数据集中同时包含手写体和印刷体俄语文本,需确保标注格式能兼容类型区分。
作为初学者,对PP-v4的数据处理逻辑尚不熟悉,若问题表述不够清晰,还请海涵!
这个项目已经卡主很久了,真心期待您的专业解答,感谢!
Beta Was this translation helpful? Give feedback.
All reactions