We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
你好!我也在玩自己训练小模型,参考了很多你的代码。 对于玩小模型来说,最有意思的部分就是数据集的构建和取舍。
我用chatgpt4o, 按照"Explain like I'm five year old"把SkyPile的数据集重写了一遍。目前得到了大概0.5G tokens的textbook quality pretrain dataset.
可以做到
不知道大佬愿不愿意试一下我做的这个数据集。以及加个好友一起讨论下
The text was updated successfully, but these errors were encountered:
非常感谢认可,也感谢你的数据整理工作!
首先我想了解一下的是:
“大概0.5T tokens的textbook quality pretrain dataset.” 对应的文件大小大约2000GB≈2TB文件
我吃惊的是你是否写错了计量单位(这很夸张)
Sorry, something went wrong.
哈哈谢谢!不知道你有没有试过把sft语料混到预训练里面一起训练,或者只用sft语料进行预训练。我怀疑如果用低质量语料进行预训练的话小模型并没有能力学习到factual knowledge(比如杭州有什么好吃的)。这些知识都是在sft阶段习得的。
有的,现在的pretrain数据就是纯sft数据整合在一起得到的。是的,低质量数据pretrain无法获得通用知识。都是sft获得的,例如现在模型用的预训练数据远少于sft数据。
No branches or pull requests
你好!我也在玩自己训练小模型,参考了很多你的代码。
对于玩小模型来说,最有意思的部分就是数据集的构建和取舍。
我用chatgpt4o, 按照"Explain like I'm five year old"把SkyPile的数据集重写了一遍。目前得到了大概0.5G tokens的textbook quality pretrain dataset.
可以做到
不知道大佬愿不愿意试一下我做的这个数据集。以及加个好友一起讨论下
The text was updated successfully, but these errors were encountered: