Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

数据增强(TinyStories)+自我安利 #163

Open
fangzhangmnm opened this issue Feb 11, 2025 · 3 comments
Open

数据增强(TinyStories)+自我安利 #163

fangzhangmnm opened this issue Feb 11, 2025 · 3 comments

Comments

@fangzhangmnm
Copy link

fangzhangmnm commented Feb 11, 2025

你好!我也在玩自己训练小模型,参考了很多你的代码。
对于玩小模型来说,最有意思的部分就是数据集的构建和取舍。

我用chatgpt4o, 按照"Explain like I'm five year old"把SkyPile的数据集重写了一遍。目前得到了大概0.5G tokens的textbook quality pretrain dataset.

可以做到

  1. 无须sft即可获得初步的问答能力和常识记忆能力
  2. 虽然pretrain只有0.5G tokens, 但是过了7-8个epoch之后才有过拟合开始变笨(失去泛化能力)的迹象

不知道大佬愿不愿意试一下我做的这个数据集。以及加个好友一起讨论下

@fangzhangmnm fangzhangmnm changed the title 数据增强(TinyStory)+自我安利 数据增强(TinyStories)+自我安利 Feb 11, 2025
@jingyaogong
Copy link
Owner

非常感谢认可,也感谢你的数据整理工作!

首先我想了解一下的是:

“大概0.5T tokens的textbook quality pretrain dataset.” 对应的文件大小大约2000GB≈2TB文件

我吃惊的是你是否写错了计量单位(这很夸张)

@fangzhangmnm
Copy link
Author

fangzhangmnm commented Feb 13, 2025

哈哈谢谢!不知道你有没有试过把sft语料混到预训练里面一起训练,或者只用sft语料进行预训练。我怀疑如果用低质量语料进行预训练的话小模型并没有能力学习到factual knowledge(比如杭州有什么好吃的)。这些知识都是在sft阶段习得的。

@jingyaogong
Copy link
Owner

哈哈谢谢!不知道你有没有试过把sft语料混到预训练里面一起训练,或者只用sft语料进行预训练。我怀疑如果用低质量语料进行预训练的话小模型并没有能力学习到factual knowledge(比如杭州有什么好吃的)。这些知识都是在sft阶段习得的。

有的,现在的pretrain数据就是纯sft数据整合在一起得到的。是的,低质量数据pretrain无法获得通用知识。都是sft获得的,例如现在模型用的预训练数据远少于sft数据。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants