| 首页 | 资讯 | 评测 | 活动 | 学院 | 专题 | 杂志 | 产服 |

阿里云推出单机即可训练百亿参数的中文稀疏GPT大模型

2022-09-02 16:46 作者：同润、临在来源：硅谷网关注：编辑：GuiGu 【搜索试试】

作者：同润、临在原标题：阿里云推出单机即可训练百亿参数的中文稀疏GPT大模型，登顶 ZeroCLUE零样本学习榜单

日前，中文语言理解权威评测基准CLUE公布了零样本学习ZeroCLUE的最新结果，阿里云位于该榜单榜首。此次刷榜的模型是阿里云机器学习PAI团队推出的160亿参数的稀疏模型GPT-MoE,这也是业界首个中文稀疏GPT大模型在该榜单登顶。

在继去年的Transformer Encoder大模型取得中文小样本学习、英文预训练模型知识量度量冠军后，今年阿里云将大模型技术能力又向前推进了一步。基于MoE稀疏结构，仅用一台A100就把160亿参数量级的多任务通用GPT模型训练成熟。这是通往低成本且高性能多任务通用自然语言理解的重要里程碑。

中文GPT大模型落地主要面临来自两方面的挑战：一方面是中文语言建模的困难，中文可以利用复杂多变的自由组合表达多重含义，这使得中文语言模型比英文在表达效率上难度加倍；另一方面随着模型参数量的不断增加，需要投入的硬件成本越来越高，训练成熟时间越来越长。

以OpenAI推出的1750亿的GPT-3为例，在1024张A100GPU上预估需要34天；因此，能否消耗更少的计算资源以高性价比的方式完成训练和推理是大模型落地亟待解决的难题。

GPT-MoE 模型采用稀疏模型的结构设计，有效缓解了上面提到的两个困难。在刷榜的过程中，从工程到算法沉淀出4点自研核心技术，有强化型稀疏均衡器，领域话术再适应驱动的中文提示语零样本学习，中文复杂任务定向优化，以及阿里云自主研发的transformer训练加速工具Rapidformer，实现了单机A100即可训练160亿参数大模型。

目前，GPT-MoE 模型已在阿里云机器学习PAI EasyNLP项目中开源，和开发者共享中文百亿稀疏GPT大模型技术。

开源项目地址：https://github.com/alibaba/EasyNLP/tree/master/examples/rapidformer

【对“阿里云推出单机即可训练百亿参数的中文稀疏GPT大模型”发布评论】

版权及免责声明：
① 本网站部分投稿来源于“网友”，涉及投资、理财、消费等内容，请亲们反复甄别，切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质，仅供阅读，不构成具体实施建议，请谨慎对待。据此操作，风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频，版权均属本网站所有，任何媒体、网站或个人需经本网站许可方可复制或转载，并在使用时必须注明来源【硅谷网】或对应来源，违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章，文章原作者享有著作权，本网站转载其他媒体稿件是为传播更多的信息，并不代表赞同其观点和对其真实性负责，本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容，涉及到侵权、违法等问题，请有关单位或个人速与本网站取得联系（联系电话：01057255600），我们将第一时间核实处理。

■