数据增强(TinyStories)+自我安利 #163

fangzhangmnm · 2025-02-11T18:20:21Z

你好！我也在玩自己训练小模型，参考了很多你的代码。
对于玩小模型来说，最有意思的部分就是数据集的构建和取舍。

我用chatgpt4o, 按照"Explain like I'm five year old"把SkyPile的数据集重写了一遍。目前得到了大概0.5G tokens的textbook quality pretrain dataset.

可以做到

不知道大佬愿不愿意试一下我做的这个数据集。以及加个好友一起讨论下

jingyaogong · 2025-02-12T01:27:52Z

非常感谢认可，也感谢你的数据整理工作！

首先我想了解一下的是：

“大概0.5T tokens的textbook quality pretrain dataset.” 对应的文件大小大约2000GB≈2TB文件

我吃惊的是你是否写错了计量单位（这很夸张）

fangzhangmnm · 2025-02-13T07:09:12Z

哈哈谢谢！不知道你有没有试过把sft语料混到预训练里面一起训练，或者只用sft语料进行预训练。我怀疑如果用低质量语料进行预训练的话小模型并没有能力学习到factual knowledge（比如杭州有什么好吃的）。这些知识都是在sft阶段习得的。

jingyaogong · 2025-02-13T07:49:19Z

哈哈谢谢！不知道你有没有试过把sft语料混到预训练里面一起训练，或者只用sft语料进行预训练。我怀疑如果用低质量语料进行预训练的话小模型并没有能力学习到factual knowledge（比如杭州有什么好吃的）。这些知识都是在sft阶段习得的。

有的，现在的pretrain数据就是纯sft数据整合在一起得到的。是的，低质量数据pretrain无法获得通用知识。都是sft获得的，例如现在模型用的预训练数据远少于sft数据。

fangzhangmnm changed the title ~~数据增强(TinyStory)+自我安利~~ 数据增强(TinyStories)+自我安利 Feb 11, 2025

Provide feedback