Releases: PaddlePaddle/PaddleNLP
Releases · PaddlePaddle/PaddleNLP
PaddleNLP v2.0.7
功能更新
- 新增PET策略的Few-Shot Learning基线;
- 新增BART模型;
- 新增C3, TriviaQa, CAIL2019-SCM数据集;
- FasterTransformer能力增强
4.1 Unified Transformer新增Beam Search和Sampling解码策略;
4.2 Top-k Sampling解码策略支持任意k;
Bug Fix
- 简化依赖,提升安装速度;
- 修复TaskFlow API的多线程使用问题;
PaddleNLP v2.0.6
功能更新
- 新增TaskFlow一键预测API,支持情感分析、知识关联(text2knowledge)任务;
- 文本匹配任务新增SimBERT模型;
- 情感分析模块中新增情绪分析任务;
- 新增长文本分类hyp thunews数据集;
Bug Fix
- 修复GPT任务中ClipGradByGlobalNorm 和 Megatron不一致的Bug;
- 修复Unified Transformer在Windows上的数据类型;
- 修复CRF batch_size=1的训练出错问题;
PaddleNLP v2.0.5
Bug fix
- 修复了预训练模型vocab无法保存的问题。
更多的预训练模型
- 新增
macbert-base-chinese
和macbert-large-chinese
预训练模型,与其他BERT模型的加载方式一致。
PaddleNLP v2.0.4
Bug fix
- 修复了ERNIE-GRAM的vocab中,
idx_to_token
和token_to_idx
不对应的问题。感谢@BFJL的贡献!🎉 🎉 🎉
更多的数据集
- 新增
SE-ABSA16_CAME
中文情感分类数据集,感谢 @jiaqianjing 的高质量贡献! 🎉 🎉 🎉 - 新增
COTE-BD & COTE-MFW
中文语义角色识别数据集,感谢 @jiaqianjing 的高质量贡献! 🎉 🎉 🎉
Finetuned model
- 新增
ernie-2.0-en-finetuned-squad
模型,由ernie-2.0-en
在squad1.0
数据集上finetune得到。
PaddleNLP v2.0.3
API功能优化
- 升级了
load_dataset()
方法,现在同时传入splits
和data_files
参数时将由splits
参数来指定读取本地数据集的格式。行为更加符合直觉。 - 生成式API
generate()
现在支持GPT预训练模型了!
更多的数据集
- 新增
BQCorpus
中文文本相似度数据集,感谢 @frozenfish123 的高质量贡献! 🎉 🎉 🎉 - 新增
PAWS-X
中文文本相似度数据集,感谢 @jiaqianjing 的高质量贡献! 🎉 🎉 🎉 - 新增
NLPCC14-SC
中文情感分类数据集,感谢 @fiyen 的高质量贡献! 🎉 🎉 🎉
PaddleNLP v2.0.2
丰富预训练模型
- 新增多粒度语言知识预训练模型ERNIE-Gram,该模型在多项中文NLP任务取得SOTA成绩。
- 新增NeZha中文预训练模型,感谢 @jm12138 的高质量贡献! 🎉 🎉 🎉
- 新增GPT CPM-Distill中文小型化模型,感谢 @jm12138 的高质量贡献!🎉 🎉 🎉
Bug Fix
- 修复了
softmax_with_crossentropy
API导致的deprecated warning - 更新了
ChnSentiCorp
等数据集的官方下载链接。
PaddleNLP v2.0.0
PaddleNLP 2.0是飞桨生态的文本领域核心库,具备易用的文本领域API,多场景的应用示例、和高性能分布式训练三大特点,旨在提升飞桨开发者文本领域建模效率,并提供基于飞桨框架2.0的NLP领域最佳实践。
特性
易用的文本领域API
提供从数据集加载、文本预处理、组网建模、评估、到推的领域API:如一键加载丰富中文数据集的Dataset API, 可灵活高效的进行数据与处理的Data API,预置60+预训练词向量的Embedding API, 内置50+预训练模型,提供预训练模型生态基础设施的Transformer API等,可大幅提升NLP任务建模和迭代的效率。更多API详细说明请查看PaddleNLP官方文档
多场景的应用示例
PaddleNLP 2.0提供多粒度多场景的应用示例,涵盖从NLP基础技术、NLP核心技术、NLP系统应用以及文本相关的拓展应用等。全面基于飞桨2.0全新API体系开发,为开发提供飞桨2.0框架在文本领域的最佳实践。
高性能分布式训练
基于飞桨核心框架『动静统一』的特性与领先的自动混合精度优化策略,通过分布式Fleet API,支持超大规模参数的4D混合并行策略,并且可根据硬件情况灵活可配,高效地完成超大规模参数的模型训练。