请问数据集开源吗？ #24

babyta · 2023-07-03T08:30:57Z

请问数据集开源吗？想做一些字体属性的分类，比如是否衬线体，是否斜体，是否加粗等。

JeffersonQin · 2023-07-03T08:37:29Z

README里面有提到，是人工合成的数据集。合成脚本都已经开源了。

字体很多字体是商用字体，来源于VCB-Studio的整合包，很多应该是不能商用的。

是否为衬线题可以由分类得到的字体本身得到。OpenType 的高级属性现在暂不支持，.ttc 的 Collection 现在也还没有处理。但是如果字体本身是斜体 / 加粗那字体可以识别的。

JeffersonQin · 2023-07-03T08:38:07Z

合成过后的数据集大小高达 200G 所以不太方便分享。建议按照 README 里写的进行多机分布式合成。

JeffersonQin · 2023-07-03T08:38:52Z

看一下这个 Section:

https://github.com/JeffersonQin/YuzuMarker.FontDetection#scene-text-font-dataset-generation

JeffersonQin · 2023-07-03T08:39:16Z

欢迎贡献 :)

babyta · 2023-07-03T09:59:11Z

好的，谢谢作者。

babyta · 2023-07-04T03:33:18Z

你好请问数据生成需要联网吗，我找了几个字体和一些背景图像放在dataset下的fonts 和pixivimages文件下下，但是运行生成程序却卡在SimplifiedChineseRandomCorpusGeneratorWithEnglish ，我将generators只保留 "zh-Hans"这个字段，同时将font_dataset下的wordlist.txt存在本地。我的环境是win11。

JeffersonQin · 2023-07-04T04:02:01Z

@babyta 请提供报错信息或者卡在的行数（打下log）。时间隔的挺久了我现在一下子也说不上来。多给我点信息帮你定位问题。

babyta · 2023-07-05T06:42:19Z

你用的数据是完整包里的数据吗？

JeffersonQin · 2023-07-05T06:43:14Z

完整包。

JeffersonQin · 2023-11-19T02:32:03Z

数据集已开源：https://huggingface.co/datasets/gyrojeff/YuzuMarker.FontDetection

babyta closed this as completed Jul 3, 2023

JeffersonQin reopened this Jul 5, 2023

JeffersonQin pinned this issue Jul 5, 2023

JeffersonQin closed this as completed Nov 19, 2023

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问数据集开源吗？ #24

请问数据集开源吗？ #24

babyta commented Jul 3, 2023

JeffersonQin commented Jul 3, 2023

JeffersonQin commented Jul 3, 2023

JeffersonQin commented Jul 3, 2023

JeffersonQin commented Jul 3, 2023

babyta commented Jul 3, 2023

babyta commented Jul 4, 2023

JeffersonQin commented Jul 4, 2023

babyta commented Jul 5, 2023

JeffersonQin commented Jul 5, 2023

JeffersonQin commented Nov 19, 2023

请问数据集开源吗？ #24

请问数据集开源吗？ #24

Comments

babyta commented Jul 3, 2023

JeffersonQin commented Jul 3, 2023

JeffersonQin commented Jul 3, 2023

JeffersonQin commented Jul 3, 2023

JeffersonQin commented Jul 3, 2023

babyta commented Jul 3, 2023

babyta commented Jul 4, 2023

JeffersonQin commented Jul 4, 2023

babyta commented Jul 5, 2023

JeffersonQin commented Jul 5, 2023

JeffersonQin commented Nov 19, 2023