| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 智能>

NVIDIA A100 GPU中的TF32将AI训练与HPC速度提升20倍

2020-08-18 13:39 作者:Aaron 来源:硅谷网综合 关注: 编辑:GuiGu 【搜索试试

NVIDIA Ampere架构内置TF32,能够加快单精度作业速度,保持精度且无需使用任何新代码。

与所有计算一样,你必须选择最佳的数值格式才能做好AI。由于深度学习是一个新兴领域,因此对于训练和推理需要哪种格式的数值,大家仍存在激烈的争论。

去年,我们讲解了各流行格式之间的差异,例如AI和高性能计算中使用的单精度、双精度、半精度、多精度和混合精度数学。如今,NVIDIA Ampere架构引入了一种新的方法,用于提高广泛用于AI的单精度模型的训练性能。

TensorFloat-32(TF32)是NVIDIA A100 GPU 中用于处理矩阵数学的新数值格式。矩阵数学也被称为张量运算,是AI和部分HPC应用主要使用的运算。与Volta GPU上的单精度浮点数值(FP32)相比,在A100 GPU Tensor核心上运行的TF32可提供高达10倍的加速。将TF32与A100上的结构稀疏性相结合后,相比于Volta可达到20倍性能提升。

认识新的数值

现在让我们先来了解TF32的工作原理和它的“用武之地”。

数值格式就像标尺。其指数位决定了它的范围和可以测量的对象大小。而它的精度则取决于其小数部分的尾数位,也就是底数或小数点后的浮点数。

一个好的格式必定是一个平衡的格式。它的位数既需要能够满足精度要求,同时也不能过多,否则就会减慢处理速度并造成内存膨胀。

下图显示的是TF32如何通过混合在张量运算中实现这种平衡。

1.png

TF32在性能、范围和精度上实现了平衡

TF32采用了与半精度(FP16)数学相同的10位尾数位精度,这样的精度水平远高于AI工作负载的精度要求,有足够的余量。同时,TF32采用了与FP32相同的8位指数位,能够支持与其相同的数字范围。

这样的组合使TF32成为了代替FP32,进行单精度数学运算的绝佳替代品,尤其是用于大量的乘积累加运算,其是深度学习和许多HPC应用的核心。

借助于NVIDIA库,用户无需修改代码,即可使其应用程序充分发挥TF32的各种优势。TF32 Tensor Core根据FP32的输入进行运算,并生成FP32格式的结果。目前,其他非矩阵运算仍然使用FP32。

为获得最佳性能,A100还具有经过增强的16位数学功能。它以两倍于TF32的速度支持FP16和Bfloat16(BF16)。利用自动混合精度,用户只需几行代码就可以将性能再提高2倍。

TF32的累累硕果

与FP32相比,TF32训练BERT的速度提高了6倍,而BERT是当今要求最高的对话式AI模型之一。其他依赖矩阵数学的AI训练和HPC应用上的应用级结果将因工作负载而异。

为验证TF32的精度,我们使用它训练了大量的AI网络,包括计算机视觉、自然语言处理和推荐系统等各种应用。结果显示,它们都具有与FP32相同的收敛到某一精度的行为。

而这正是NVIDIA将TF32设置为cuDNN库的默认数值格式的原因,cuDNN库可以加速神经网络上的关键数学运算。同时,NVIDIA正在与开发AI框架的开源社区合作,致力于使TF32成为A100 GPU上的默认训练模式。

今年6月份,开发人员将可以在NGC的NVIDIA GPU加速软件列表中获取支持 TF32 的Tensorflow版本和Pytorch 版本。

TensorFlow产品管理总监Kemal El Moujahid表示:“TensorFloat-32为AI应用提供了触手可及的训练与推理的大幅性能提升,同时又保持了FP32的精度。”

他还补充道:“我们计划在TensorFlow中提供TensorFloat-32原生支持,以使数据科学家无需修改任何代码,就可以利用NVIDIA A100 Tensor Core GPU获得大幅度的性能提升,从中受益。”

PyTorch团队发言人表示:“机器学习研究人员、数据科学家和工程师希望加快解决方案的实现时间。当TF32与PyTorch实现本机集成时,可使用基于NVIDIA Ampere架构GPU快速实现加速,而且无需更改任何代码,同时还能保持FP32的精度。”

TF32 加速HPC线性求解器

线性求解器是HPC应用的一种,使用重复矩阵数学计算的算法,其也将从TF32中受益。此类应用被广泛用于地球科学、流体动力学、医疗、材料科学和核能以及石油和天然气勘探等领域。

30多年来,全球都在使用运用FP32达到FP64精度的线性求解器。去年,一项针对国际热核实验堆的聚变反应研究表明,混合精度技术使用NVIDIA FP16 Tensor Core核心使此类求解器的速度增至3.5倍。在该研究中,这项技术还使Summit超级计算机的HPL-AI基准性能增至3倍。

为证明TF32为线性系统求解器所带来的强大功能和鲁棒性,我们在SuiteSparse矩阵集合中使用cuSOLVER(位于A100上的CUDA 11.0中)运行各种测试。在测试中,与包含FP16和BF16的其他tensor-core核心模式相比,TF32能够提供最快、最可靠的结果。

除线性求解器之外,其他高性能计算领域也使用FP32矩阵运算。NVIDIA计划与业内合作,研究如何将TF32应用于目前依赖FP32的更多用例。

 
【对“NVIDIA A100 GPU中的TF32将AI训练与HPC速度提升20倍”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
头条
又一次AI 欺骗了人类 超过七成的人无法分辨真假音效 又一次AI 欺骗了人类 超过七成的人无法分辨真
又一次,AI 欺骗了人类。在一次试验中,AI 让 73% 的人相信 AI 合成音效是真实的。这……
·又一次AI 欺骗了人类 超过七成的人无法分辨真
·人脸识别应用场景不断拓展 滥用人脸识别存在
·疫情防控经济复苏全球布局 人工智能当下有为
·100家AI初创公司榜单发布 这几个趋势需要重视
·人工智能助力新冠疫情防控 智能机器人最受欢
图文
NVIDIA A100 GPU中的TF32将AI训练与HPC速度提升20倍
NVIDIA A100 GPU中的TF32将AI训练与HPC速度
又一次AI 欺骗了人类 超过七成的人无法分辨真假音效
又一次AI 欺骗了人类 超过七成的人无法分辨
ZAO隐私风险 你的脸已经不仅仅是你的脸了
ZAO隐私风险 你的脸已经不仅仅是你的脸了
九号机器人,这次想用AI运载机器人送快递送外卖
九号机器人,这次想用AI运载机器人送快递送
热点
·AI又出了偏门应用:用算法“脱掉”女性衣服
·ZAO隐私风险 你的脸已经不仅仅是你的脸了
·美的AIR空间站|你用过能管理空气的空调吗?
·新橙派果汁机器人引爆中国独角兽孵化合作大会
·民宿房东的辛酸史 用安伴门锁实现了合规运营
旧闻
·华为智能手表HUAWEI WATCH GT 2欧洲上市 运
·5G赋能智慧终端体验 华为终端云服务打造全场
·中消协智能门锁试验报告出炉 鹿客智能锁安全
·BOT3重磅发布图像处理IC“Pascal”,加速视觉
·进入IDC DevOps领导者象限,华为云DevCloud使
广告
硅谷精选
NVIDIA A100 GPU中的TF32将AI训练与HPC速度提升20倍
NVIDIA A100 GPU中的TF32将AI训练与HPC速度提升20倍
又一次AI 欺骗了人类 超过七成的人无法分辨真假音效
又一次AI 欺骗了人类 超过七成的人无法分辨真假音效
人脸识别应用场景不断拓展 滥用人脸识别存在信息安全隐忧
人脸识别应用场景不断拓展 滥用人脸识别存在信息安全
超18万网友引爆AIoT直播间,高质量AI数据成产业落地焦点
超18万网友引爆AIoT直播间,高质量AI数据成产业落地焦
特斯联入选36氪中国新基建之王榜单,以AI CITY定义未来城市
特斯联入选36氪中国新基建之王榜单,以AI CITY定义未
这份通往未来数字城市的路书,请收下(图)
这份通往未来数字城市的路书,请收下(图)
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2020 硅谷网. 版权所有. All Rights Reserved. <京ICP备12003855号-2>