From e90d389e9d0b94c9a868215fe179833b31634311 Mon Sep 17 00:00:00 2001 From: b4b4o Date: Thu, 15 Aug 2024 09:57:44 +0800 Subject: [PATCH] =?UTF-8?q?Update=202.MoE=E7=BB=8F=E5=85=B8=E8=AE=BA?= =?UTF-8?q?=E6=96=87=E7=AE=80=E7=89=8D.md?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- ...\205\270\350\256\272\346\226\207\347\256\200\347\211\215.md" | 2 +- 1 file changed, 1 insertion(+), 1 deletion(-) diff --git "a/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215.md" "b/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215.md" index e3452af..8715f75 100644 --- "a/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215.md" +++ "b/02.\345\244\247\350\257\255\350\250\200\346\250\241\345\236\213\346\236\266\346\236\204/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215/2.MoE\347\273\217\345\205\270\350\256\272\346\226\207\347\256\200\347\211\215.md" @@ -313,7 +313,7 @@ $$ ### 4.2 专家如何学习? -ST-MoE 的研究者们发现,**Encorder 中不同的专家倾向于专注于特定类型的 token 或浅层概念**。例如,某些专家可能专门处理标点符号,而其他专家则专注于专有名词等。与此相反,Decorder 中的专家通常具有较低的专业化程度。此外,研究者们还对这一模型进行了多语言训练。尽管人们可能会预期每个专家处理一种特定语言,但实际上并非如此。由于 token 路由和负载均衡的机制,没有任何专家被特定配置以专门处理某一特定语言。 +ST-MoE 的研究者们发现,**Encoder 中不同的专家倾向于专注于特定类型的 token 或浅层概念**。例如,某些专家可能专门处理标点符号,而其他专家则专注于专有名词等。与此相反,Decoder 中的专家通常具有较低的专业化程度。此外,研究者们还对这一模型进行了多语言训练。尽管人们可能会预期每个专家处理一种特定语言,但实际上并非如此。由于 token 路由和负载均衡的机制,没有任何专家被特定配置以专门处理某一特定语言。 ### 4.3 专家的数量对预训练有何影响?