PaddleNLP v2.2.0

smallv0221 released this 10 Dec 17:51

· 3826 commits to develop since this release

New features

预训练加速训推一体加速开发FasterERNIE

新增支持高性能文本预处理算子FasterTokenizer，提供更快的文本预处理 #1220
融合Fused TransformerEncoder API，极致优化Transformer性能 #1308
新增to_static()接口，支持文本处理与模型计算整图导出，提供更易用的模型导出
优化C++部署体验，显著降低C++开发成本
提供文本分类、序列标注使用示例

面向生成任务的高性能加速组件FasterGeneration

FasterTransformer升级至V4.0版本
Transformer 加速版本在 sampling 以及 3 种 beam search 策略下新增 force decoding 策略支持
生成API新增Diverse Beam Search策略

Taskflow升级

新增名词短语标注及文本相似度计算任务 #1246 #1345
句法分析任务增加已分词方式解析句法树能力 #1351
中文分词、词性标注、命名实体识别任务支持用户自定义词典干预策略 #364 #1420
知识挖掘任务支持自定义模型、自定义Term-Linking等进阶使用方式 #1329
解语套件词类知识标注工具WordTag支持增量数据训练 #1329
解语套件百科知识树TermTree使用体验完善，支持定制化使用 #1329

更多预训练模型

新增表单多模态模型LayoutLM、LayoutLMv2、LayoutXLM模型
新增基于unimo-text-1.0-lcsts-new中文摘要预训练模型
新增mBART和mBART50模型，用于多语言翻译
解语套件新增NPTag模型，可直接用于名词短语标注，标签类别2000+ #1246
新增GPTModel预训练权重 gpt2-en、gpt2-large-en、gpt2-xl-en，可用于英文文本生成 #1302
新增Mengzi中文预训练模型

自动模型与分词器加载

新增AutoModel和AutoTokenizer模块，可更便捷加载不同网络结构预训练模型与分词器

社区贡献

新增BertJapaneseTokenizer & 新增BertJapanese模型预训练权重 by @iverxin in #1115
新增BlenderbotSmall & Blenderbot模型 #868 ，感谢 @kevinng77 的贡献
新增SqueezeBERT模型 #937 ，感谢 @renmada 的贡献
新增CTRL模型 #921 ，感谢 @JunnYu 的贡献
新增T5模型 #916 ，感谢 @JunnYu 的贡献
新增Reformer模型 #870 ，感谢 @JunnYu 的贡献
新增MobileBert模型 #1160 ，感谢 @nosaydomore 的贡献
新增ChineseBert模型 #1100 ，感谢 @27182812 的贡献
新增End-to-End Memory Network模型 #1046，感谢 @yulangz 的贡献
完善Bert模型下游任务代码 & 新增Bert预训练权重 by @JunnYu in #1085
完善BigBird模型下游任务代码 by @iverxin in #1114
完善Electra模型下游任务代码 & 新增Electra预训练权重 by @JunnYu in #1086
完善Roberta模型下游任务代码 & 新增Roberta预训练权重 by @nosaydomore in #1133
完善GPT模型下游任务代码 & 新增GPT预训练权重 by @JunnYu in #1088
完善XLNet模型下游任务代码 & 新增DistilBert预训练权重by @renmada in

Misc

新增文本分类数据集XNLI #1336
GPT-3模型预训练，支持静态图Pure FP16训练 #1353
命名实体识别，增加了peoples_daily_ner数据集支持，同时支持使用ERNIE模型 #1361
优化ViterbiDecoder解码性能，在GPU设备上可提升10倍 #1291

Bugfix

修复下载进度条单位不正确的问题
修复GPT模型导出后，预测报错问题 #1303
修复文本纠错模型指标统计Bug #1255 #1265 #1273
修复generate API接口的get_logits_processor参数缺失 @JunnYu in #1399
修复BERT模型对2D attention mask的支持 @JunnYu in #1226

Contributors

nosaydomore, iverxin, and 5 other contributors

Assets 2