作者:同润、临在 原标题:阿里云推出单机即可训练百亿参数的中文稀疏GPT大模型,登顶 ZeroCLUE零样本学习榜单
日前,中文语言理解权威评测基准CLUE公布了零样本学习ZeroCLUE的最新结果,阿里云位于该榜单榜首。此次刷榜的模型是阿里云机器学习PAI团队推出的160亿参数的稀疏模型GPT-MoE,这也是业界首个中文稀疏GPT大模型在该榜单登顶。
在继去年的Transformer Encoder大模型取得中文小样本学习、英文预训练模型知识量度量冠军后,今年阿里云将大模型技术能力又向前推进了一步。基于MoE稀疏结构,仅用一台A100就把160亿参数量级的多任务通用GPT模型训练成熟。这是通往低成本且高性能多任务通用自然语言理解的重要里程碑。
中文GPT大模型落地主要面临来自两方面的挑战:一方面是中文语言建模的困难,中文可以利用复杂多变的自由组合表达多重含义,这使得中文语言模型比英文在表达效率上难度加倍;另一方面随着模型参数量的不断增加,需要投入的硬件成本越来越高,训练成熟时间越来越长。
以OpenAI推出的1750亿的GPT-3为例,在1024张A100GPU上预估需要34天;因此,能否消耗更少的计算资源以高性价比的方式完成训练和推理是大模型落地亟待解决的难题。
GPT-MoE 模型采用稀疏模型的结构设计,有效缓解了上面提到的两个困难。在刷榜的过程中,从工程到算法沉淀出4点自研核心技术,有强化型稀疏均衡器,领域话术再适应驱动的中文提示语零样本学习,中文复杂任务定向优化,以及阿里云自主研发的transformer训练加速工具Rapidformer,实现了单机A100即可训练160亿参数大模型。
目前,GPT-MoE 模型已在阿里云机器学习PAI EasyNLP项目中开源,和开发者共享中文百亿稀疏GPT大模型技术。
开源项目地址:https://github.com/alibaba/EasyNLP/tree/master/examples/rapidformer
|