在自然语言处理领域中,预训练语言模型(Pretrained Language Models)已成为非常重要的基础技术,本仓库主要收集目前网上公开的一些高质量中文预训练模型(感谢分享资源的大佬),并将持续更新......
注: 🤗huggingface模型下载地址: 1. huggingface官方地址
- 2018 | BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding | Jacob Devlin, et al. | arXiv |
PDF
- 2019 | Pre-Training with Whole Word Masking for Chinese BERT | Yiming Cui, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
BERT-Base | base | Google Drive | Google Research | github | 通用 | |
BERT-wwm | base | Google Drive | Yiming Cui | github | 通用 | |
BERT-wwm-ext | base | Google Drive | Yiming Cui | github | 通用 | |
bert-base-民事 | base | 阿里云 | THUNLP | github | 司法 | |
bert-base-刑事 | base | 阿里云 | THUNLP | github | 司法 | |
BAAI-JDAI-BERT | base | 京东云 | JDAI | github | 电商客服对话 | |
FinBERT | base | Value Simplex | github | 金融科技领域 | ||
EduBERT | base | 好未来AI | 好未来AI | tal-tech | github | 教育领域 |
guwenbert-base | base | Ethan | github | 古文领域 | ||
guwenbert-large | large | Ethan | github | 古文领域 | ||
BERT-CCPoem | small | thunlp | THUNLP-AIPoet | github | 古典诗歌 |
备注:
wwm全称为**Whole Word Masking **,一个完整的词的部分WordPiece子词被mask,则同属该词的其他部分也会被mask
ext表示在更多数据集下训练
- 2021 | ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information | Zijun Sun, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
ChineseBERT | base | huggingface | ShannonAI | github | 通用 | |
ChineseBERT | large | huggingface | ShannonAI | github | 通用 |
- 2019 | RoBERTa: A Robustly Optimized BERT Pretraining Approach | Yinhan Liu, et al. | arXiv |
PDF
- 2019 | ALBERT: A Lite BERT For Self-Supervised Learning Of Language Representations | Zhenzhong Lan, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
Albert_tiny | tiny | Google Drive | Google Drive | brightmart | github | 通用 |
Albert_base_zh | base | Google Drive | Google Drive | brightmart | github | 通用 |
Albert_large_zh | large | Google Drive | Google Drive | brightmart | github | 通用 |
Albert_xlarge_zh | xlarge | Google Drive | Google Drive | brightmart | github | 通用 |
Albert_base | base | Google Drive | Google Research | github | 通用 | |
Albert_large | large | Google Drive | Google Research | github | 通用 | |
Albert_xlarge | xlarge | Google Drive | Google Research | github | 通用 | |
Albert_xxlarge | xxlarge | Google Drive | Google Research | github | 通用 |
- 2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
NEZHA-base | base | lonePatient | HUAWEI | github | 通用 | |
NEZHA-base-wwm | base | lonePatient | HUAWEI | github | 通用 | |
NEZHA-large | large | lonePatient | HUAWEI | github | 通用 | |
NEZHA-large-wwm | large | lonePatient | HUAWEI | github | 通用 | |
WoNEZHA |
base | 百度网盘-qgkq | ZhuiyiTechnology | github | 通用 |
- 2020 | Revisiting Pre-Trained Models for Chinese Natural Language Processing | Yiming Cui, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
MacBERT-base | base | Yiming Cui | github | 通用 | ||
MacBERT-large | large | Yiming Cui | github | 通用 |
- 2020 | 提速不掉点:基于词颗粒度的中文WoBERT | 苏剑林. | spaces |
Blog post
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
WoBERT | base | 百度网盘-kim2 | ZhuiyiTechnology | github | 通用 | |
WoBERT-plus | base | 百度网盘-aedw | ZhuiyiTechnology | github | 通用 |
- 2019 | XLNet: Generalized Autoregressive Pretraining for Language Understanding | Zhilin Yang, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
XLNet-base | base | Google Drive | Yiming Cui | github | 通用 | |
XLNet-mid | middle | Google Drive | Yiming Cui | github | 通用 | |
XLNet_zh_Large | large | 百度网盘 | brightmart | github | 通用 |
- 2020 | ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators | Kevin Clark, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
ELECTRA-180g-large | large | Yiming Cui | github | 通用 | ||
ELECTRA-180g-small-ex | small | Yiming Cui | github | 通用 | ||
ELECTRA-180g-base | base | Yiming Cui | github | 通用 | ||
ELECTRA-180g-small | small | Yiming Cui | github | 通用 | ||
legal-ELECTRA-large | large | Yiming Cui | github | 司法领域 | ||
legal-ELECTRA-base | base | Yiming Cui | github | 司法领域 | ||
legal-ELECTRA-small | small | Yiming Cui | github | 司法领域 | ||
ELECTRA-tiny | tiny | CLUE | github | 通用 |
- 2019 | ZEN: Pre-training Chinese Text Encoder Enhanced by N-gram Representations | Shizhe Diao, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
ZEN-Base | base | Sinovation Ventures AI Institute | github | 通用 | ||
Erlangshen-ZEN2 | large | huggingface | IDEA-CCNL | github | 通用 |
-
2019 | ERNIE: Enhanced Representation through Knowledge Integration | Yu Sun, et al. | arXiv |
PDF
-
2020 | SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis | Hao Tian, et al. | arXiv |
PDF
-
2020 | ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding | Dongling Xiao, et al. | arXiv |
PDF
模型 | 版本 | PaddlePaddle | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
ernie-1.0-base | base | link | PaddlePaddle | github | 通用 | |
ernie_1.0_skep_large | large | link | Baidu | github | 情感分析 | |
ernie-gram | base | link | Baidu | github | 通用 |
备注:
PaddlePaddle转TensorFlow可参考: tensorflow_ernie
PaddlePaddle转PyTorch可参考: ERNIE-Pytorch
-
2021 | ERNIE 3.0: Large-scale Knowledge Enhanced Pre-training for Language Understanding and Generation | Yu Sun, et al. | arXiv |
PDF
-
2021 | ERNIE 3.0 Titan: Exploring Larger-scale Knowledge Enhanced Pre-training for Language Understanding and Generation | Shuohuan Wang, et al. | arXiv |
PDF
模型 | 版本 | PaddlePaddle | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
ernie-3.0-base | 12-layer, 768-hidden, 12-heads | link | huggingface | PaddlePaddle | github | 通用 |
ernie-3.0-medium | 6-layer, 768-hidden, 12-heads | link | huggingface | PaddlePaddle | github | 通用 |
ernie-3.0-mini | 6-layer, 384-hidden, 12-heads | link | huggingface | PaddlePaddle | github | 通用 |
ernie-3.0-micro | 4-layer, 384-hidden, 12-heads | link | huggingface | PaddlePaddle | github | 通用 |
ernie-3.0-nano | 4-layer, 312-hidden, 12-heads | link | huggingface | PaddlePaddle | github | 通用 |
PaddlePaddle转PyTorch可参考: ERNIE-Pytorch
-
2021 | RoFormer: Enhanced Transformer with Rotary Position Embedding | Jianlin Su, et al. | arXiv |
PDF
-
2021 | Transformer升级之路:2、博采众长的旋转式位置编码 | 苏剑林. | spaces |
Blog post
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
roformer | base(L12) | 百度网盘-xy9x | ZhuiyiTechnology | github | 通用 | |
roformer | small(L6) | 百度网盘-gy97 | ZhuiyiTechnology | github | 通用 | |
roformer-char | base(L12) | 百度网盘-bt94 | ZhuiyiTechnology | github | 通用 | |
roformerV2 | small(L6) | 百度网盘-ttn4追一 | ZhuiyiTechnology | github | 通用 | |
roformerV2 | base(L12) | 百度网盘-pfoh追一 | ZhuiyiTechnology | github | 通用 | |
roformerV2 | large(L24) | 百度网盘-npfv追一 | ZhuiyiTechnology | github | 通用 |
- 2019 | StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding | Wei Wang, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
StructBERT | large(L24) | 阿里云 | Alibaba | github | 通用 |
- 2021 | Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models | Yuxuan Lai, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
LatticeBERT | tiny(L4) | 阿里云 | Alibaba | github | 通用 | |
LatticeBERT | small(L6) | 阿里云 | Alibaba | github | 通用 | |
LatticeBERT | base(L12) | 阿里云 | Alibaba | github | 通用 |
- 2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
Mengzi-BERT | base(L12) | huggingface | Langboat | github | 通用 | |
Mengzi-BERT-fin | base(L12) | huggingface | Langboat | github | 金融财经 |
- 2022 | Bloom: BigScience Large Open-science Open-access Multilingual Language Model | huggingface bigscience | - |
BLOG
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
bloom-6b4-zh | 6B(L30) | huggingface | Langboat (作者另有bloom-389m-zh到bloom-2b5-zh等多个中文模型) | github | 通用 |
- 2021 | TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning | Yixuan Su, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
TaCL | base(L12) | huggingface | yxuansu | github | 通用 |
- 2021 | MC-BERT: Conceptualized Representation Learning for Chinese Biomedical Text Mining | alibaba-research | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
MC-BERT | base(L12) | link | alibaba-research | github | 生物医疗 |
模型 | 版本 | 类型 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|---|
Erlangshen | large(L24) | bert | huggingface | IDEA-CCNL | github | 中文通用 |
- 2022 | PERT: Pre-Training BERT with Permuted Language Model | Yiming Cui, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
PERT-base | base(12L) | 百度网盘-rcsw | huggingface | Yiming Cui | github | 通用 |
PERT-large | large(24L) | 百度网盘-e9hs | huggingface | Yiming Cui | github | 通用 |
- 2020 | MobileBERT: a Compact Task-Agnostic BERT for Resource-Limited Devices | Zhiqing Sun, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
Chinese-MobileBERT-base-f2 | base | 百度网盘-56bj | Yiming Cui | github | 通用 | |
Chinese-MobileBERT-base-f4 | base | 百度网盘-v2v7 | Yiming Cui | github | 通用 | |
Chinese-MobileBERT-large-f2 | large | 百度网盘-6m5a | Yiming Cui | github | 通用 | |
Chinese-MobileBERT-large-f4 | large | 百度网盘-3h9b | Yiming Cui | github | 通用 |
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
chinese_GAU-alpha-char_L-24_H-768 | base | 下载 | ZhuiyiTechnology | github | 通用 |
- 2020 | DeBERTa: Decoding-enhanced BERT with Disentangled Attention | Pengcheng He, et al. | arXiv |
PDF
|
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
DeBERTa-v2-Large | large | huggingface | IDEA-CCNL | github | 通用 | |
DeBERTa-v2-xLarge | xlarge | huggingface | IDEA-CCNL | github | 通用 | |
DeBERTa-v2 | base | huggingface | IDEA-CCNL | github | 通用 |
- 2021 | GlyphCRM: Bidirectional Encoder Representation for Chinese Character with its Glyph | Yuxin li, et al. | arXiv |
PDF
|
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
GlyphCRM-base | base | huggingface | HITsz-TMG | github | 通用 |
- 2022 | Revisiting and Advancing Chinese Natural Language Understanding with Accelerated Heterogeneous Knowledge Pre-training | Zhang, Taolin, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
pai-ckbert-base-zh | base | huggingface | Alibaba | github | 通用 | |
pai-ckbert-large-zh | large | huggingface | Alibaba | github | 通用 | |
pai-ckbert-huge-zh | huge | huggingface | Alibaba | github | 通用 |
-
2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv |
PDF
-
2019 | Language Models are Unsupervised Multitask Learners | Alec Radford, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
GPT2 | 30亿语料 | Caspar ZHANG | gpt2-ml | 通用 | ||
GPT2 | 15亿语料 | Caspar ZHANG | gpt2-ml | 通用 | ||
CDial-GPTLCCC-base | base | huggingface | thu-coai | CDial-GPT | 中文对话 | |
CDial-GPT2LCCC-base | base | huggingface | thu-coai | CDial-GPT | 中文对话 | |
CDial-GPTLCCC-large | large | huggingface | thu-coai | CDial-GPT | 中文对话 | |
GPT2-dialogue | base | yangjianxin1 | GPT2-chitchat | 闲聊对话 | ||
GPT2-mmi | base | yangjianxin1 | GPT2-chitchat | 闲聊对话 | ||
GPT2-散文模型 | base | Zeyao Du | GPT2-Chinese | 散文 | ||
GPT2-诗词模型 | base | Zeyao Du | GPT2-Chinese | 诗词 | ||
GPT2-对联模型 | base | Zeyao Du | GPT2-Chinese | 对联 | ||
roformer-gpt | base(L12) | 百度网盘-2nnn | ZhuiyiTechnology | github | 通用 |
-
2019 | Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context | Zihang Dai, et al. | arXiv |
PDF
-
2020 | Language Models are Few-Shot Learners | Tom B. Brown, et al. | arXiv |
PDF
模型 | 版本 | 介绍 | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
Chinese-Transformer-XL | 29亿参数(GPT-3) | 项目首页 | 模型下载 | THUDM | github | 通用 |
-
2019 | NEZHA: Neural Contextualized Representation for Chinese Language Understanding | Junqiu Wei, et al. | arXiv |
PDF
-
2019 | Improving Language Understandingby Generative Pre-Training | Alec Radford, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
NEZHA-Gen | base | HUAWEI | github | 通用 | ||
NEZHA-Gen | base | HUAWEI | github | 诗歌 |
- 2020 | CPM: A Large-scale Generative Chinese Pre-trained Language Model | Zhengyan Zhang, et al. | arXiv |
PDF
模型 | 版本 | 资源 | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
CPM | 26亿参数 | 项目首页 | 模型下载 | Tsinghua AI | github | 通用 |
备注:
PyTorch转TensorFlow可参考: CPM-LM-TF2
PyTorch转PaddlePaddle可参考: CPM-Generate-Paddle
- 2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | Colin Raffel, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
T5 | small | huggingface | huggingface | DBIIR @ RUC | UER | 通用 |
-
2019 | Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer | Colin Raffel, et al. | arXiv |
PDF
-
2019 | PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization | Jingqing Zhang, et al. | arXiv |
PDF
-
2021 | T5 PEGASUS:开源一个中文生成式预训练模型 | 苏剑林. | spaces |
Blog post
模型 | 版本 | Keras | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
T5 PEGASUS | base | 百度网盘-3sfn | ZhuiyiTechnology | github | 通用 | |
T5 PEGASUS | small | 百度网盘-qguk | ZhuiyiTechnology | github | 通用 |
Keras转PyTorch可参考: t5-pegasus-pytorch
- 2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
Mengzi-T5 | base(L12) | huggingface | Langboat | github | 通用 |
- 2021 | PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation | Wei Zeng, et al. | arXiv |
PDF
模型 | 版本 | 资源 | 下载地址 | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
盘古α-2.6B | 2.6G | 项目首页 | 模型下载 | PCL-Platform.Intelligence | github | 通用 |
盘古α-13B | 12G | 项目首页 | 模型下载 | PCL-Platform.Intelligence | github | 通用 |
盘古α-2.6B pytorch版本 | 2.6G | 项目首页 | 模型下载 | PCL-Platform.Intelligence | github | 通用 |
盘古α-13B pytorch版本 | 12G | 项目首页 | 模型下载 | PCL-Platform.Intelligence | github | 通用 |
- 2021 | EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training | Hao Zhou, et al. | arXiv |
PDF
模型 | 版本 | 介绍 | 模型下载 | 作者 | 源地址 | 应用领域 | 备注 |
---|---|---|---|---|---|---|---|
EVA | 28亿参数 | 项目首页 | 模型下载 | thu-coai | github | 中文开放域对话 | 需要登陆才能下载 |
EVA2.0-xLarge | xlarge | 项目首页 | huggingface | thu-coai | github | 中文开放域对话 | |
EVA2.0-large | large | 项目首页 | huggingface | thu-coai | github | 中文开放域对话 | |
EVA2.0-base | base | 项目首页 | huggingface | thu-coai | github | 中文开放域对话 |
- 2019 | BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension | Mike Lewis, et al. | arxiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
BART-base | base | huggingface | fastNLP | github | 中文通用 | |
BART-large | large | huggingface | fastNLP | github | 中文通用 |
模型 | 版本 | 类型 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|---|
Wenzhong | large(L24) | GPT2 | huggingface | IDEA-CCNL | github | 中文通用 |
模型 | 版本 | 类型 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|---|
Yuyuan | large(L24) | GPT2 | huggingface | IDEA-CCNL | github | 医学领域 |
模型 | 版本 | 类型 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|---|
RWKV | base(L12) | 类似GPT-2 | github | PENG Bo | github | 小说 |
- 2019 | Unified Language Model Pre-training for Natural Language Understanding and Generation | Li Dong, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
Unilm | base | 百度网盘-tblr | 百度网盘-etwf | YunwenTechnology | github | 通用 |
- 2020 | 鱼与熊掌兼得:融合检索和生成的SimBERT模型 | 苏剑林. | spaces |
Blog post
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
SimBERT Tiny | tiny | 百度网盘-1tp7 | ZhuiyiTechnology | github | 通用 | |
SimBERT Small | small | 百度网盘-nu67 | ZhuiyiTechnology | github | 通用 | |
SimBERT Base | base | 百度网盘-6xhq | ZhuiyiTechnology | github | 通用 |
- 2021 | SimBERTv2来了!融合检索和生成的RoFormer-Sim模型 | 苏剑林. | spaces |
Blog post
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
roformer-sim | base(L12) | 百度网盘-2cgz | ZhuiyiTechnology | github | 通用 | |
roformer-sim | small(L6) | 百度网盘-h68q | ZhuiyiTechnology | github | 通用 | |
roformer-sim-v2 | base(L12) | 百度网盘-w15n | ZhuiyiTechnology | github | 通用 |
模型 | 版本 | 类型 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|---|
Zhouwenwang | base(L12) | roformer | huggingface | IDEA-CCNL | github | 中文通用 | |
Zhouwenwang | large(L24) | roformer | huggingface | IDEA-CCNL | github | 中文通用 |
- 2021 | CPM-2: Large-scale Cost-effective Pre-trained Language Models | Zhengyan Zhang, et al. | arXiv |
PDF
模型 | 版本 | 介绍 | 模型下载 | 作者 | 源地址 | 应用领域 | 备注 |
---|---|---|---|---|---|---|---|
CPM-2 | 110亿参数 | 项目首页 | 模型下载 | BAAI-WuDao | github | 通用 | 需要申请才能下载 |
CPM-2 | 100亿参数 | 项目首页 | 模型下载 | BAAI-WuDao | github | 中英 | 需要申请才能下载 |
CPM-2 | 1980亿参数 | 项目首页 | 模型下载 | BAAI-WuDao | github | 中英 | 需要申请才能下载 |
- 2021 | CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation | Yunfan Shao, et al. | arxiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
CPT-base | base(L12) | huggingface | fastNLP | github | 通用 | |
CPT-large | large(L24) | huggingface | fastNLP | github | 通用 |
- 2022 | GLM: General Language Model Pretraining with Autoregressive Blank Infilling | Zhengxiao Du, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
GLM | large | 地址 | THUDM | github | 通用 | |
GLM | xxlarge | 地址 | THUDM | github | 通用 | |
GLM-130B | 130B | 地址 | THUDM | github | 通用 |
- 2019 | StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding | Wei Wang, et al. | arXiv |
PDF
- 2020 | PALM: Pre-training an Autoencoding&Autoregressive Language Model for Context-conditioned Generation | Bin Bi, et al. | ACL|
PDF
模型 | 版本 | 模型下载 | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|
PLUG | large(L24 27B) | AliceMind-需要申请 | Alibaba | github | 通用 |
- 2021 | WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training | Yuqi Huo, et al. | arXiv |
PDF
模型 | 版本 | 介绍 | 模型下载 | 作者 | 源地址 | 应用领域 | 备注 |
---|---|---|---|---|---|---|---|
BriVL(WenLan) | 10亿参数 | 项目首页 | 模型下载 | BAAI-WuDao | github | 中文通用图文 | 需要登陆才能下载 |
- 2021 | CogView: Mastering Text-to-Image Generation via Transformers | Ming Ding, et al. | arXiv |
PDF
模型 | 版本 | 介绍 | 模型下载 | 作者 | 源地址 | 应用领域 | 备注 |
---|---|---|---|---|---|---|---|
CogView | 40亿参数 | 项目首页 | 模型下载 | THUDM | github | 中文多模态生成模型 | 需要登陆才能下载 |
模型 | 版本 | 介绍 | 模型下载 | 作者 | 源地址 | 应用领域 | 备注 |
---|---|---|---|---|---|---|---|
紫东太初- light_vision_text | 项目首页 | 模型下载 | 中科院自动化所 | github | 中文图像-文本领域 | 紫东太初多模态大模型中的图像-文本预训练模型 | |
紫东太初-text[GPT] | 32亿参数 | 项目首页 | 百度网盘-nos5 | 中科院自动化所 | github | 中文通用 | 紫东太初多模态大模型中的文本预训练模型 |
紫东太初-vision | 项目首页 | 模型下载 | 中科院自动化所 | github | 视觉领域 | 紫东太初多模态大模型中的视觉预训练模型 | |
紫东太初-speech | 项目首页 | 模型下载 | 中科院自动化所 | github | 语音领域 | 紫东太初多模态大模型中的语音检测与识别多任务模型 |
- 2021 | Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese | Zhuosheng Zhang, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
Mengzi-oscar | base(L12) | huggingface | Langboat | github | 中文多模态-图文 |
- 2022 | Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework | Chunyu Xie, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 首页 | 应用领域 |
---|---|---|---|---|---|---|---|
R2D2ViT-L | large | yuxie11 | github | zero | 中文多模态-图文 | ||
PRD2ViT-L | large | yuxie11 | github | zero | 中文多模态-图文 |
- 2021 | Learning Transferable Visual Models From Natural Language Supervision | Alec Radford, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
Chinese-CLIP | 326M | aliyuncs | billjie1 | github | 中文多模态-图文 |
- 2021 | Learning Transferable Visual Models From Natural Language Supervision | Alec Radford, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
Taiyi-CLIP-Roberta-large-326M-Chinese | base | huggingface | IDEA-CCNL | github | 中文多模态-图文 |
- 2021 | Improving Text-to-SQL with Schema Dependency Learning | Binyuan Hui, et al. | arXiv |
PDF
模型 | 版本 | TensorFlow | PyTorch | 作者 | 源地址 | 应用领域 |
---|---|---|---|---|---|---|
sdcup | base | 阿里云 | Alibaba | github | 中文表格 | |
sdcup | large | 阿里云 | Alibaba | github | 中文表格 |
- 2022.10.14 增加CKBERT,中文知识库增强BERT预训练语言模型。
- 2022.10.01 增加GlyphBERT, GlyphBERT是一个包含了汉字字形特征中文预训练模型。它通过将输入的字符渲染成图像并设计成多通道位置特征图的形式,并设计了一个两层 残差卷积神经网络模块来提取字符的图像特征进行训练。
- 2022.09.30 增加DeBERTa,一个中文版的DeBERTa-v2,我们用悟道语料库(180G版本)进行预训练,在预训练阶段中使用了封神框架。
- 2022.09.30 增加TaiYi-CLIP,首个开源的中文CLIP模型,1.23亿图文对上进行预训练的文本端RoBERTa-large。
- 2022.09.27 增加PLUG,PLUG集语言理解与生成能力于一身,支持文本生成、问答、语义理解等多类下游任务,PLUG开源将助力开发者在语言理解和语言生成上做出更多延拓。
- 2022.09.11 增加bloom-6b4,多语言预训练bloom系列生成模型7b1参数(https://huggingface.co/bigscience/bloom-7b1 )的中文vocab提取,bloom系列另有最大176B模型(https://huggingface.co/bigscience/bloom).
- 2022.09.11 增加GLM-130B,提出了开源的双语预训练生成模型 GLM(General Language Model)。
- 2022.09.11 增加PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation 2.6B和13B 生成模型pytorch版
- 2022.07.10 增加Chinese-CLIP,CLIP模型的中文版本,使用大规模中文数据进行训练(~2亿图文对),旨在帮助用户实现中文领域的跨模态检索、图像表示等.
- 2022.06.29 增加ERNIE 3.0,大规模知识增强预训练语言理解和生成.
- 2022.06.22 增加Zero and R2D2: A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework,基于大规模中文跨模态基准数据集Zero,训练视觉语言预训练框架 R2D2,用于大规模跨模态学习。
- 2022.06.15 增加GLM: General Language Model Pretraining with Autoregressive Blank Infilling,提出了一种新的通用语言模型 GLM(General Language Model)。 使用自回归填空目标进行预训练,可以针对各种自然语言理解和生成任务进行微调。
- 2022.05.16 增加GAU-α,主要提出了一个融合了Attention层和FFN层的新设计GAU(Gated Attention Unit,门控注意力单元),它是新模型更快、更省、更好的关键,此外它使得整个模型只有一种层,也显得更为优雅。
- 2022.03.27 增加RoFormer-V2,RoFormer升级版,主要通过结构的简化来提升速度,并通过无监督预训练和有监督预训练的结合来提升效果,从而达到了速度与效果的“双赢”。
- 2022.03.02 增加MobileBERT,MobileBERT是BERT-large模型更“苗条”的版本,使用了瓶颈结构(bottleneck)并且对自注意力和前馈神经网络之间的平衡做了细致的设计。
- 2022.02.24 增加PERT: Pre-Training BERT with Permuted Language Model,一种基于乱序语言模型的预训练模型(PERT),在不引入掩码标记[MASK]的情况下自监督地学习文本语义信息。
- 2021.12.06 增加SDCUP: Improving Text-to-SQL with Schema Dependency Learning,达摩院深度语言模型体系 AliceMind 发布中文社区首个表格预训练模型 SDCUP。
- 2021.11.27 增加RWKV中文预训练生成模型,类似 GPT-2,模型参考地址:RWKV-LM
- 2021.11.27 增加IDEA研究院开源的封神榜系列语言模型,包含二郎神、周文王、闻仲、余元。
- 2021.11.25 增加MC-BERT: Conceptualized Representation Learning for Chinese Biomedical Text Mining, 生物医学领域的中文预训练模型.
- 2021.11.24 增加TaCL: Improving BERT Pre-training with Token-aware Contrastive Learning, Token-aware对比学习预训练模型.
- 2021.10.18 增加Mengzi: Towards Lightweight yet Ingenious Pre-trained Models for Chinese,基于语言学信息融入和训练加速等方法研发了 Mengzi 系列模型.
- 2021.10.14 增加中文版BART,训练比较可靠的中文版BART,为中文生成类任务如摘要等提供Baseline.
- 2021.10.14 增加CPT: A Pre-Trained Unbalanced Transformer for Both Chinese Language Understanding and Generation,CPT:兼顾理解和生成的中文预训练模型.
- 2021.10.13 增加紫东太初多模态大模型: 全球首个多模态图文音预训练模型,实现了视觉-文本-语音三模态统一表示,构建了三模态预训练大模型。
- 2021.09.19 增加CogView: Mastering Text-to-Image Generation via Transformers,世界最大的中文多模态生成模型,模型支持文生成图为基础的多领域下游任务.
- 2021.09.10 增加WenLan: Bridging Vision and Language by Large-Scale Multi-Modal Pre-Training,首个中文通用图文多模态大规模预训练模型。
- 2021.09.10 增加EVA: An Open-Domain Chinese Dialogue System with Large-Scale Generative Pre-Training,一个开放领域的中文对话预训练模型。
- 2021.08.19 增加Chinese-Transformer-XL:基于中文预训练语料WuDaoCorpus(290G)训练的GPT-3模型。
- 2021.08.16 增加CPM-2: Large-scale Cost-effective Pre-trained Language Models
- 2021.08.16 增加Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models
- 2021.07.19 增加roformer-sim-v2:利用标注数据增强版本
- 2021.07.15 增加BERT-CCPoem:古典诗歌语料训练的BERT
- 2021.07.06 增加ChineseBERT:Chinese Pretraining Enhanced by Glyph and Pinyin Information
- 2021.06.22 增加StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding
- 2021.06.14 增加RoFormer:Enhanced Transformer with Rotary Position Embedding
- 2021.05.25 增加ERNIE-Gram: Pre-Training with Explicitly N-Gram Masked Language Modeling for Natural Language Understanding
- 2021.04.28 增加PanGu-α: Large-scale Autoregressive Pretrained Chinese Language Models with Auto-parallel Computation
- 2021.03.16 增加T5-PEGASUS: 开源一个中文生成式预训练模型
- 2021.03.09 增加UER系列模型
- 2021.03.04 增加WoBERT: 基于词颗粒度的中文
- 2020.11.11 初始化BERT系列模型BERT