Skip to content

Commit

Permalink
update readme
Browse files Browse the repository at this point in the history
  • Loading branch information
hannawong committed May 16, 2024
1 parent d2091c2 commit b970158
Showing 1 changed file with 7 additions and 1 deletion.
8 changes: 7 additions & 1 deletion README.md
Original file line number Diff line number Diff line change
Expand Up @@ -23,6 +23,7 @@
- [声明、协议、引用](#声明协议引用)

# 最新动态
- 2024.5.16 开源优化的12B版本chat模型**TeleChat-12B-v2**
- 2024.3.20 开源12B版本chat模型及量化版本
- 2024.1.11 开源1T中文数据集
- 2024.1.10 开源7B版本chat模型及其量化版本
Expand All @@ -32,10 +33,15 @@
- 星辰语义大模型TeleChat是由中电信人工智能科技有限公司研发训练的大语言模型,其中7B模型基座采用1.5万亿 Tokens中英文高质量语料进行训练,12B模型基座采用3万亿 Tokens中英文高质量语料进行训练。
- 我们开源了对话模型**TeleChat-7B****TeleChat-12B**,以及其`huggingface`格式的权重文件。此外,我们还开源了7B、12B模型的int8和int4量化版本。
- **TeleChat-12B**在模型结构、训练数据、训练方法等方面进行了改进,在通用问答和知识类、代码类、数学类榜单上相比**TeleChat-7B**均有大幅提升。

- 在模型结构方面,我们使用小规模的模型尝试多种模型结构的组合,选择最优结构。相比**TeleChat-7B**模型,**TeleChat-12B**模型采用了词嵌入层与输出层解耦的结构,将词嵌入层和输出lm head层参数分开,有助于增强训练稳定性和收敛性。
- 在训练数据方面,我们收集了覆盖书籍、百科、新闻、政务、法律、医药、专利、论文、数学、代码等诸多方面的大量中英文数据;通过优化数据清洗策略大幅提升数据的文本干净度、观点无偏性、内容有效性、格式规范性。
- 在训练方法方面,我们使用科学数据配比学习与课程学习的方法,使用小参数模型在多种数据配比的数据上拟合,得到对各个数据集难度的先验估计;训练过程中每隔一段时间自动化评估当前模型在所有数据集上的loss,以及在评测集上的生成效果,动态提升较难学习的数据集权重,保证模型在各个数据集上都有较佳的拟合效果。

- **TeleChat-12B-v2**版本使用动态数据配比和课程学习的方法,将基座模型持续训练到3.7T数据。其对话模型在通用能力评测上提升5.5%,其中数学能力提升24.6%、翻译能力提升9%、幻觉测试提升10.3%,安全拒识、知识问答、闲聊问答等方面也有不同程度的提升。



### 模型结构

我们采用标准的 `Decoder-only` 结构设计了 **TeleChat** 模型,并在模型维度做了如下的一些改进:
Expand Down Expand Up @@ -691,7 +697,7 @@ TeleChat的分词算法是BBPE算法,该算法是字节级实现的分词算
- 效果方面,模型训练效果对齐A100,loss基本吻合;

- 性能方面,具体对比如下:

| NAME | performance(samples/s) | Epochs | AMP_Type |
|-----------------------|-----------------------:| ------ | -------: |
| 7B-8p-GPU(A100-40G) | 8.86 | 5 | - |
Expand Down

0 comments on commit b970158

Please sign in to comment.