PaddleNLP是飞桨生态的文本领域核心库,具备易用的文本领域API,多场景的应用示例、和高性能分布式训练三大特点,旨在提升开发者文本领域的开发效率,并提供基于飞桨2.0核心框架的NLP任务最佳实践。
功能特点:
易用的文本领域API
提供从数据加载、文本预处理、模型组网评估、到推理加速的领域API:支持丰富中文数据集加载的Dataset API;灵活高效地完成数据预处理的Data API;提供60+预训练模型的Transformer API等,可大幅提升NLP任务建模与迭代的效率。
多场景的应用示例
覆盖从学术到工业级的NLP应用示例,涵盖从NLP基础技术、NLP核心技术、NLP系统应用以及相关拓展应用。全面基于飞桨核心框架2.0全新API体系开发,为开发提供飞桨2.0框架在文本领域的最佳实践。
高性能分布式训练
基于飞桨核心框架领先的自动混合精度优化策略,结合分布式Fleet API,支持4D混合并行策略,可高效地完成超大规模参数的模型训练。
更新日志
自研极致收敛的RsLoRA+算法,大幅提升PEFT训练收敛速度以及训练效果;
引入高性能生成加速到RLHF PPO算法,打破 PPO 训练中生成速度瓶颈,PPO训练性能大幅领先。
通用化支持 FastFNN、FusedQKV等多个大模型训练性能优化方式,大模型训练更快、更稳定
|