Skip to content

Commit

Permalink
online llm
Browse files Browse the repository at this point in the history
  • Loading branch information
wdndev committed May 5, 2024
1 parent 5dddceb commit 448aff8
Show file tree
Hide file tree
Showing 843 changed files with 492 additions and 492 deletions.
35 changes: 35 additions & 0 deletions 01.大语言模型基础/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,35 @@
# 01.大语言模型基础

### 1.1 大模型发展历程

[1.语言模型](/01.大语言模型基础/1.语言模型/1.语言模型.md "1.语言模型")

### 1.2 分词与词向量

[1.分词](/01.大语言模型基础/1.分词/1.分词.md "1.分词")

[2.jieba分词用法及原理](/01.大语言模型基础/2.jieba分词用法及原理/2.jieba分词用法及原理.md "2.jieba分词用法及原理")

[3.词性标注](/01.大语言模型基础/3.词性标注/3.词性标注.md "3.词性标注")

[4.句法分析](/01.大语言模型基础/4.句法分析/4.句法分析.md "4.句法分析")

[5.词向量](/01.大语言模型基础/5.词向量/5.词向量.md "5.词向量")

### 1.3 语言模型基础知识

[Word2Vec](/01.大语言模型基础/Word2Vec/Word2Vec.md "Word2Vec")

[NLP三大特征抽取器(CNN/RNN/TF)](/01.大语言模型基础/NLP三大特征抽取器(CNN-RNN-TF)/NLP三大特征抽取器(CNN-RNN-TF).md "NLP三大特征抽取器(CNN/RNN/TF)")

[NLP面试题](/01.大语言模型基础/NLP面试题/NLP面试题.md "NLP面试题")

[LLM为什么Decoder only架构](</01.大语言模型基础/LLM为什么Decoder only架构/LLM为什么Decoder only架构.md> "LLM为什么Decoder only架构")

### 1.4 深度学习

[1.激活函数](/01.大语言模型基础/1.激活函数/1.激活函数.md "1.激活函数")

### 1.5 一些题目

[1.llm概念](/01.大语言模型基础/1.llm概念/1.llm概念.md "1.llm概念")
51 changes: 51 additions & 0 deletions 02.大语言模型架构/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,51 @@
# 02.大语言模型架构

### 2.1 Transformer模型

[1.attention](/02.大语言模型架构/1.attention/1.attention.md "1.attention")

[2.layer\_normalization](/02.大语言模型架构/2.layer_normalization/2.layer_normalization.md "2.layer_normalization")

[3.位置编码](/02.大语言模型架构/3.位置编码/3.位置编码.md "3.位置编码")

[4.tokenize分词](/02.大语言模型架构/4.tokenize分词/4.tokenize分词.md "4.tokenize分词")

[5.token及模型参数](/02.大语言模型架构/5.token及模型参数/5.token及模型参数.md "5.token及模型参数")

[6.激活函数](/02.大语言模型架构/6.激活函数/6.激活函数.md "6.激活函数")

### 2.2 注意力

[MHA\_MQA\_GQA](/02.大语言模型架构/MHA_MQA_GQA/MHA_MQA_GQA.md "MHA_MQA_GQA")

### 2.3 解码部分

[解码策略(Top-k & Top-p & Temperature)](</02.大语言模型架构/解码策略(Top-k & Top-p & Temperatu/解码策略(Top-k & Top-p & Temperature).md> "解码策略(Top-k & Top-p & Temperature)")

### 2.4 BERT

[bert细节](/02.大语言模型架构/bert细节/bert细节.md "bert细节")

[Transformer架构细节](/02.大语言模型架构/Transformer架构细节/Transformer架构细节.md "Transformer架构细节")

[bert变种](/02.大语言模型架构/bert变种/bert变种.md "bert变种")

### 2.5 常见大模型

[llama系列模型](/02.大语言模型架构/llama系列模型/llama系列模型.md "llama系列模型")

[chatglm系列模型](/02.大语言模型架构/chatglm系列模型/chatglm系列模型.md "chatglm系列模型")

[llama 2代码详解](</02.大语言模型架构/llama 2代码详解/llama 2代码详解.md> "llama 2代码详解")

[llama 3](</02.大语言模型架构/llama 3/llama 3.md> "llama 3")

### 2.6 MoE

[1.MoE论文](/02.大语言模型架构/1.MoE论文/1.MoE论文.md "1.MoE论文")

[2.MoE经典论文简牍](/02.大语言模型架构/2.MoE经典论文简牍/2.MoE经典论文简牍.md "2.MoE经典论文简牍")

[3.LLM MoE :Switch Transformers](</02.大语言模型架构/3.LLM MoE :Switch Transformers/3.LLM MoE :Switch Transformers.md> "3.LLM MoE :Switch Transformers")


7 changes: 7 additions & 0 deletions 03.训练数据集/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,7 @@
# 03.训练数据集

### 3.1 数据集

[数据格式](/03.训练数据集/数据格式/数据格式.md "数据格式")

### 3.2 模型参数
File renamed without changes.
File renamed without changes.
44 changes: 44 additions & 0 deletions 04.分布式训练/README.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,44 @@
# 04.分布式训练

### 4.1 基础知识

[1.概述](/04.分布式训练/1.概述/1.概述.md "1.概述")

[2.数据并行](/04.分布式训练/2.数据并行/2.数据并行.md "2.数据并行")

[3.流水线并行](/04.分布式训练/3.流水线并行/3.流水线并行.md "3.流水线并行")

[4.张量并行](/04.分布式训练/4.张量并行/4.张量并行.md "4.张量并行")

[5.序列并行](/04.分布式训练/5.序列并行/5.序列并行.md "5.序列并行")

[6.多维度混合并行](/04.分布式训练/6.多维度混合并行/6.多维度混合并行.md "6.多维度混合并行")

[7.自动并行](/04.分布式训练/7.自动并行/7.自动并行.md "7.自动并行")

[8.moe并行](/04.分布式训练/8.moe并行/8.moe并行.md "8.moe并行")

[9.总结](/04.分布式训练/9.总结/9.总结.md "9.总结")

### 4.2 DeepSpeed

[deepspeed介绍](/04.分布式训练/deepspeed介绍/deepspeed介绍.md "deepspeed介绍")

### 4.3 Megatron

### 4.4 训练加速

### 4.5 一些有用的文章


### 4.6 一些题目

[1.分布式训练题目](/04.分布式训练/分布式训练题目/分布式训练题目.md "分布式训练题目")
[2.显存问题](/04.分布式训练/1.显存问题/1.显存问题.md "1.显存问题")

### 4.7 参考资料:

- [大模型分布式训练并行技术(九)-总结 - 掘金 (juejin.cn)](https://juejin.cn/post/7290740395913969705 "大模型分布式训练并行技术(九)-总结 - 掘金 (juejin.cn)")
- [https://www.zhangzhenhu.com/deepspeed/index.html](https://www.zhangzhenhu.com/deepspeed/index.html "https://www.zhangzhenhu.com/deepspeed/index.html")
- [https://blog.csdn.net/zwqjoy/article/details/130732601](https://blog.csdn.net/zwqjoy/article/details/130732601 "https://blog.csdn.net/zwqjoy/article/details/130732601")
- [https://techdiylife.github.io/](https://techdiylife.github.io/ "https://techdiylife.github.io/")
Loading

0 comments on commit 448aff8

Please sign in to comment.