| 首页  |  资讯  |  评测  |  活动  |  学院  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 云计算>

CRI-RM 助力浪潮AIStation提升云原生工作负载性能

2021-11-17 16:05 作者:Cestlavie 来源:硅谷网综合 关注: 编辑:GuiGu 【搜索试试

在 KubeCon + CloudNativeCon + Open Source Summit China 2021 大会上, 英特尔®有多场技术分享,这里要给大家特别推荐的一场分享为:

Friday, December 10 • 11:20 - 11:55

深入研究:基于 CRI-RM 的中央处理器和非统一内存访问架构亲和性实现人工智能任务加速

欢迎大家来交流。

在这个议题中,演讲嘉宾将就开源项目 CRI-RM 以及它在浪潮 AIStation 的实际应用跟大家分享。

CRI-RM(Container Runtime Interface, Resource manager), 是英特尔®初创的一个开源项目,其目的是通过在节点上的动态划分系统资源,配合 Kubernetes 调度器,实现在节点层面上的最优任务编排,把 Intel® 平台的特性完美的适配到 Kubernetes 的集群环境里。

AIStation 是浪潮发布的人工智能开发平台,面向深度学习开发训练场景,全面整合 AI 计算资源、训练数据资源以及 AI 开发工具。

随着 AI 技术创新、场景化 AI 应用持续落地,越来越多的企业开始尝试搭建 AI 平台,进行 AI 技术开发、模型训练,并将其应用到业务流程之中。但是,AI 平台的搭建并非一蹴而就。从 AI 模型的开发,到最终进入到生产部署阶段,企业将面临资源管理、模型测试等带来的不同挑战,同时还需要能够充分发挥 CPU 等硬件的性能潜力,提升 AI 训练性能。

浪潮与英特尔合作,利用基于容器运行时接口的资源管理器 CRI-RM 进行了 AI 训练加速实践,可以在 K8s 集群上,按照拓扑资源实现物理主机的最优分配,从而突破使用 K8s 原生 CPU 管理机制所带来的性能瓶颈,大幅提升 AI 计算的性能。

AI 模型训练进入云原生时代,算力挑战浮出水面,提到 AI 模型训练,不少开发者脑海中浮现出的是繁琐的资源申请与管理流程、巨大的算力消耗、漫长的模型训练时间……而云原生技术的出现,能够在很大程度上化解 AI 资源的调度难题。通过 K8s ,企业将能够管理云平台中多个主机上的容器化应用,实现 AI 资源的统一部署、规划、更新和维护,能够有效提高用户的 AI 资源管理率,提升平台的可管理性、可扩展性、弹性与可用性。

浪潮 AIStation 应运而生。面向人工智能企业训练开发与服务部署场景,浪潮 AIStation包含完整的模型开发、训练和部署全流程,可视化开发、集中化管理等特性,能够为用户提供高性能的 AI 计算资源,实现高效的计算力支撑、精准的资源管理和调度、敏捷的数据整合及加速、流程化的 AI 场景及业务整合。

图:浪潮 AIStation V3 架构图

要通过 AIStation 构建 AI 应用平台,需要进行的一个重要抉择便是:算力如何提供?虽然GPU 被普遍用于 AI 训练,但这并不意味着 GPU 是唯一选择。事实上,在大量的行业场景中,用户希望充分利用既有的 CPU 计算资源,灵活地满足 AI 等多种负载的要求,同时减少资本支出。 但是,在 K8s 集群上使用 CPU 进行训练,用户会遇到一定的性能瓶颈。这是因为 K8s 原生的 CPU 管理机制没有考虑 CPU 绑定与 NUMA 亲和性,高版本的 K8s 只会对 QOS 为 Guaranteed 的 Pod 生效,这可能会导致 CPU 在 AI 训练中无法充分发挥性能。

CRI-RM 优化助力浪潮 AIStation 突破性能瓶颈,在发现 K8s 集群上的 AI 算力瓶颈之后,浪潮与英特尔展开了深入合作,使用 CRI-RM(基于容器运行时接口的资源管理器)技术对 K8s 进行了优化。该组件可以插在 Kubelet 和 Container Runtime(CR) 之间,截取来自 Kubelet CRI 协议的请求,扮演 CR 的非透明代理,跟踪所有集群节点容器状态,能够更好地将处理器、内存、IO 外设和内存控制器等资源分配给应用负载,从而有效提升性能表现。

在TensorFlow CNN测试用例中,这一优化被证明能够实现高达 57.76% 的性能提升[1]。这意味着在未对硬件配置进行更新的前提下,CRI-RM 的应用会带来大幅度的性能提升,使得用户无需在进行硬件投入便能够获得可观的 AI 训练性能提升,从而提高基础设施的利用效率,并节约总体拥有成本 (TCO)。

图:使用 CRI-RM 进行优化前后的性能对比

(Tensorflow | model: customized cnn,越低越好)

在此次优化的基础上,浪潮与英特尔还在探索在基于第三代英特尔® 至强® 可扩展处理器的 HPC 集群上进行进一步的性能验证,并计划在利用 CPU 进行人工智能推理和训练方面进行更为广泛的合作,通过硬件选型、软件优化、系统集成等多种不同的方式,加速从云端到边缘基础设施上的人工智能性能表现。

查看完整方案文,请访问此方案

[1] 数据援引自浪潮内部测试结果;测试配置:英特尔至强金牌6132处理器 @ 2.60GHz,28 核,56 线程,192GB内存,Centos 7.8.2003,Kubernetes 1.14.8,Docker 19.03,AIStation 3.1

KubeCon + CloudNativeCon + Open Source Summit China 2021 由云原生计算基金会 CNCF 主办。作为云原生领域的顶级技术盛会,历年的 KubeCon + CloudNativeCon + Open Source Summit China 都汇聚了国内外最活跃的开源云原生社区、最先进的技术代表与行业的最佳落地实践,推动云原生计算领域的知识更新和技术进步。本届大会的议程安排现已全面上线,更多详情请查看大会官网。

【对“CRI-RM 助力浪潮AIStation提升云原生工作负载性能”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
头条
阿里云深耕自研技术 发布倚天、磐久、神龙4.0等重磅产品 阿里云深耕自研技术 发布倚天、磐久、神龙4.0
硅谷网讯 ,2021年10月20日,2021云栖大会上,阿里云发布了倚天、磐久、神龙4.0、龙蜥……
·阿里云深耕自研技术 发布倚天、磐久、神龙4.0
·2021云栖大会|阿里云将加速数据中心清洁能源
·2021年第二季度全球云服务支出超过 470 亿美
·网贷再迎监管风暴 这次中枪的是大数据风控
·卧底大数据营销公司:起底“隐私背后的生意”
图文
云赋能 网极简 | 新华三Cloudnet助力中小企业数字转型迈入新一程
云赋能 网极简 | 新华三Cloudnet助力中小企
万物互联时代的边缘计算 让CDN行业充满想象空间
万物互联时代的边缘计算 让CDN行业充满想象
神策 2019 数据驱动大会举办,大数据行业矩变升级
神策 2019 数据驱动大会举办,大数据行业矩
新升级 联通智游文旅大数据平台一键搞定文旅问题
新升级 联通智游文旅大数据平台一键搞定文
热点
·神策 2019 数据驱动大会举办,大数据行业矩变
·读懂农业大数据 县域农业大脑AI挑战赛发布
·新升级 联通智游文旅大数据平台一键搞定文旅
·联通大数据“药品智慧监管追溯平台”亮相数字
·应对大规模数据集群治理,联通大数据这么做
旧闻
·盛夏时节,第三届工业大数据创新竞赛 就等你
·云帆加速王羲桀:边缘计算的竞争力正在向“高
·友盟+首届灯塔奖申报正式启动 分个人奖和企业
·《融合与变革:企业高管及CMO实现“以人为本
·云帆加速荣获2021GIDC “边缘计算最佳案例奖
广告
硅谷精选
云赋能 网极简 | 新华三Cloudnet助力中小企业数字转型迈入新一程
云赋能 网极简 | 新华三Cloudnet助力中小企业数字转型
万物互联时代的边缘计算 让CDN行业充满想象空间
万物互联时代的边缘计算 让CDN行业充满想象空间
CRI-RM 助力浪潮AIStation提升云原生工作负载性能
CRI-RM 助力浪潮AIStation提升云原生工作负载性能
有了这些云技术,能够再造一个《鱿鱼游戏》爆款?
有了这些云技术,能够再造一个《鱿鱼游戏》爆款?
2021数字生态大会云安全专场聚焦数实融合共议安全上云
2021数字生态大会云安全专场聚焦数实融合共议安全上云
腾讯安全以XDR思想构建云原生安全体系打造易用可信的云
腾讯安全以XDR思想构建云原生安全体系打造易用可信的
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2021 硅谷网. 版权所有. All Rights Reserved. <备案号:京ICP备12003855号-2>