| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 云计算>

阿里云推出单机即可训练百亿参数的中文稀疏GPT大模型

2022-09-02 16:46 作者:同润、临在 来源:硅谷网 关注: 编辑:GuiGu 【搜索试试

作者:同润、临在  原标题:阿里云推出单机即可训练百亿参数的中文稀疏GPT大模型,登顶 ZeroCLUE零样本学习榜单

日前,中文语言理解权威评测基准CLUE公布了零样本学习ZeroCLUE的最新结果,阿里云位于该榜单榜首。此次刷榜的模型是阿里云机器学习PAI团队推出的160亿参数的稀疏模型GPT-MoE,这也是业界首个中文稀疏GPT大模型在该榜单登顶。

在继去年的Transformer Encoder大模型取得中文小样本学习、英文预训练模型知识量度量冠军后,今年阿里云将大模型技术能力又向前推进了一步。基于MoE稀疏结构,仅用一台A100就把160亿参数量级的多任务通用GPT模型训练成熟。这是通往低成本且高性能多任务通用自然语言理解的重要里程碑。

中文GPT大模型落地主要面临来自两方面的挑战:一方面是中文语言建模的困难,中文可以利用复杂多变的自由组合表达多重含义,这使得中文语言模型比英文在表达效率上难度加倍;另一方面随着模型参数量的不断增加,需要投入的硬件成本越来越高,训练成熟时间越来越长。

以OpenAI推出的1750亿的GPT-3为例,在1024张A100GPU上预估需要34天;因此,能否消耗更少的计算资源以高性价比的方式完成训练和推理是大模型落地亟待解决的难题。

GPT-MoE 模型采用稀疏模型的结构设计,有效缓解了上面提到的两个困难。在刷榜的过程中,从工程到算法沉淀出4点自研核心技术,有强化型稀疏均衡器,领域话术再适应驱动的中文提示语零样本学习,中文复杂任务定向优化,以及阿里云自主研发的transformer训练加速工具Rapidformer,实现了单机A100即可训练160亿参数大模型。

目前,GPT-MoE 模型已在阿里云机器学习PAI EasyNLP项目中开源,和开发者共享中文百亿稀疏GPT大模型技术。

开源项目地址:https://github.com/alibaba/EasyNLP/tree/master/examples/rapidformer

【对“阿里云推出单机即可训练百亿参数的中文稀疏GPT大模型”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
·阿里云Flink+Hologres:构建企业级一站式实时数
·阿里云DataWorks全链路数据治理被评为数字经济大
·阿里云新增三大高性能计算解决方案,助力生命科
·阿里云EasyNLP中文文图生成模型带你秒变艺术家
·阿里云机器学习平台PAI论文入选IJCAI 2022会议
·阿里云发布AnalyticDB数仓升舱解决方案 查询性能
·阿里云大数据+AI平台通过信通院数据平台整体解决
·国内首批!阿里云云原生数据湖产品通过信通院评
头条
阿里达摩院量子计算突破,新型量子比特有望弯道超车 阿里达摩院量子计算突破,新型量子比特有望弯
7月8日,记者获悉,阿里达摩院开拓新型量子比特平台的研究,在全球物理学顶刊《Physic……
·阿里达摩院量子计算突破,新型量子比特有望弯
·阿里云发布云数据中心专用处理器CIPU,未来将
·中国公有云市场预计未来5年将继续高速增长
·谷歌如何在2030年之前全部使用无碳能源运作数
·苹果iCloud遭遇集体诉讼同意赔偿用户1480万美
图文
阿里云推出单机即可训练百亿参数的中文稀疏GPT大模型
阿里云推出单机即可训练百亿参数的中文稀疏
以数智技术驱动虚实融合,OPPO发布Andeverse虚实共生计算平台
以数智技术驱动虚实融合,OPPO发布Andevers
阿里达摩院量子计算突破,新型量子比特有望弯道超车
阿里达摩院量子计算突破,新型量子比特有望
神策 2019 数据驱动大会举办,大数据行业矩变升级
神策 2019 数据驱动大会举办,大数据行业矩
热点
·阿里达摩院量子计算突破,新型量子比特有望弯
·神策 2019 数据驱动大会举办,大数据行业矩变
·读懂农业大数据 县域农业大脑AI挑战赛发布
·新升级 联通智游文旅大数据平台一键搞定文旅
·联通大数据“药品智慧监管追溯平台”亮相数字
旧闻
·因云而生的云原生,生而敏捷的云研发
·云效首发应用交付和项目协作新品,助力企业De
·实体赋能数字资产,WinEx定义新型交易平台
·ARM服务器的竞争力越来越强?深圳云端未来抢
·Apsara Stack 技术百科 | 可运营的行业云,让
广告
硅谷精选
阿里云推出单机即可训练百亿参数的中文稀疏GPT大模型
阿里云推出单机即可训练百亿参数的中文稀疏GPT大模型
以数智技术驱动虚实融合,OPPO发布Andeverse虚实共生计算平台
以数智技术驱动虚实融合,OPPO发布Andeverse虚实共生
数据湖:基于EMR的云原生数据湖分析实践
数据湖:基于EMR的云原生数据湖分析实践
数据湖架构及概念简介 数据湖建设主要有四个阶段
数据湖架构及概念简介 数据湖建设主要有四个阶段
天数智芯推出百大应用开放平台DeepSpark 让算力选择不再困难
天数智芯推出百大应用开放平台DeepSpark 让算力选择不
亚马逊云科技与TalkingData携手助力美妆巨头数字化营销提效
亚马逊云科技与TalkingData携手助力美妆巨头数字化营
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2021 硅谷网. 版权所有. All Rights Reserved. <备案号:京ICP备12003855号-2>