随着数字化浪潮的侵袭,不论是传统企业还是现代化企业,不是在数字化转型升级的路上,就是已经实现数字化。然而数字化的根本是数据化,一切业务数据化,一切数据业务化。在传统企业转型数字化的发展过程中,从对IT运维的重视程度,就可以看出当前很多企业在信息化系统运维普遍存在的问题。
在2018云栖大会上,中航金网电子商务有限公司CTO赵维五接受赛迪网采访时表示:“传统企业不同于BAT这样的互联网公司,有庞大的运维团队和资源支持。在有限的运维资源下,更重要的是合理构建运维体系,选择适合的自动化,智能化运维工具,可以有效降低企业运维成本,提升运维效率。如果自身缺乏运维管理理念和资源,最直接有效的办法就是借力,借助专业公司补足自己的能力,让自己更加专注自身业务发展。”
曾任职阿里巴巴技术专家的赵维五,如今在专业的B2B航空工业电商领域发展。如何解决业务发展带来的分布式、多数据中心运维难题,提升运维效率,减少故障,提升用户体验,便是他如今的职责所在。
企业信息化通病:重研发轻运维
赵维五回忆,在阿里时整个阿里的运维体系和运维的资源是非常强大的,足够支撑整个阿里电商的业务,但是到中航金网电子商务有限公司(下文简称:中航金网)之后,发现一个普遍的共性问题:就是企业的管理层和企业的领导对运维相对于研发来讲不是那么重视。很多的投入是在研发端,运维端投入较少。这就显得智能化运维更加重要,在有限的运维资源的情况下,如何更高效地把整个运维体系建立起来,如何利用更加自动化、智能化的工具,有效地分配资源,高质量地完成运维工作,就显得格外重要。
中航金网是航空工业电子采购平台和中国航发网上商城两大集团电商平台的建设和运营服务提供商。航空工业采购平台是面向集团公司400多家企业接近10万家的用户,提供电子化采购和供应链集成服务的平台,平台采用混合云架构,在公有云利用阿里云的弹性服务,帮助中航金网快速搭建起很多SaaS运用,在集团公司对数据安全非常强管控的要求下,混合云主要是面向数据存储和数据安全运维。
之所以使用混合云架构,赵维五指出:“主要考虑数据的安全性。必竟两个集团是央企,对于数据有严格的管控要求。业务快速扩展方面,要求应用系统产品快速跟进上线。公有云的弹性计算能力、丰富的中间件服务对于应用系统的研发、部署、迭代、运维是最好的选择,大大降低了时间成本、采购成本、管理成本;私有云主要担当角色是数据存储和与内网其他业务系统的集成,按照集团对于数据管控的要求,从数据库的高可用、备份、审计、灾备等方面建设与运维。”
私有云破解数据管控
资源配置方面,航空工业电子采购平台在阿里云和私有云共使用500多台IaaS/PaaS主机与设备,分布在3个数据中心以及云上5个VPC内,支撑起200亿的年交易额。赵维五介绍:“随着业务的快速发展,应用不断扩展迭代以及引入新的组件,整个系统架构变得越来越复杂,整个资源投入上也是呈现出线性的增长,同时相应的线上的问题也不在断增多,但是相对来说运维资源有限,所以也拉长了整个运维响应时间和响应质量,同时对研发端有更多的压力和挑战。从平台安全性来说,平台等保三级的备案同时集团对平台安全性极高的要求,也对运维能力提出来更高的要求。”
目前对于大多数的企业,即使是国企、央企,对数据的安全还是比较敏感,在数据的管控上有严格的要求。基于这样一个原因,一方面业务要快速的扩张,整个应用的部署要快速的上线迭代,所以这是公有云的一个优势,利用公有云的资源,可以快速地进行迭代开发。
改进运维的三大目标
运维资源缺乏、运维理念观念比较陈旧、、运维工具落后,是赵维五在工作中总结出来的企业运维现有的通病。为更好的改进企业运维现状,赵维五提出三个改进的目标:
第一,把整个运维工作提高到体系建设的高度。体系规划建设,是做任何事情的基础,体系的建设就是将运维的标准和规范重新梳理和定义。
运维规范,是从产品的研发端到线上运维以及到全流程规范的建立。运维资源的整合,一方面梳理现有的有限运维的资源情况下,按照职能分工基础的运维和数据运维以及运用运维团队甚至是不同的团队,借助外部的资源弥补内部的短板。比如说和袋鼠云公司的合作,通过袋鼠云足够的技术能力和技术资源协助企业完善整个运维体系的架构和管理。
第二,在有限的运维资源如何高效高质量的工作,势必要建立自动化的运维工具来协助运维工作。运维体系规划的执行落地,靠人的主观能动性很难推动,需要靠智能化的工具和平台辅助才可更好地落地,通过智能化的运维平台和工具减少运维人员繁琐、枯燥无味的重复劳动,减少排查问题的时间和被动解决问题的机会,最终在有限的运维资源下更好地整合、高效协同来工作。在工具方面,赵维五和他的团队把所有来自于硬件、网络、以及应用的日志数据和监控信息做统一的收集作为“运维中台”,利用云日志分析平台进行分析处理,从业务的角度发现系统的问题,同时把这一切通过可视化大屏幕实时展示出来。
随着整个运维监控平台的上线,能够及时主动地发现问题,通过主动性的探测和被动性的应用接口日志改造,能够覆盖大部分关键业务,同时在问题的排查过程中也可以通过EasyLog,加快对分部署应用问题的排查和处理,最终对于整个用户体验来说是非常大的提升。
数据库的统一管控平台,中航金网有很多不同应用系统的部署,每个应用系统有自己的数据库,数据库也是使用不同的数据库的产品,其实从数据整体的统一管理和管控来看,如何做好数据库的统一管理和监控,包括统一的日常监控、安全审计、备份机制等,EasyDB是不错的选择。
第三,在用户端,为了更好的及时处理以及沉淀问题解决能力,中航金网成立一支虚拟应急的响应团队来响应线上问题,执行线上规范,并且把结果沉淀下来,传递到各个团队内部,同时日常的流程通过钉钉来落地,方便执行管理。
今年4月,中航金网开始做应用端日志以及接口的改造,通过程序日志规范化的输出,接入EasyLog日志分析平台,实时监控应用的运行状况和异常,并通过钉钉、手机短信等即时发出告警通知。刚开始接入的时候,几乎告警是不停的,赵维五回忆当时看到满屏的告警信息时的心情,是可以用万马奔腾来形容的。没有想到小问题会这么多,而每一次大的故障背后都可能是忽略的无数小问题引起的,这也及时鞭策赵维五不能忽略任何细小的问题,踏踏实实把平台做好,不光是要实现功能,更需要安全、稳定和更好的体验。
智能运维的力量
航空工业电子采购平台整体的运维体系建设和上线,有了袋鼠云的加入,整个智能平台的效果明显。赵维五介绍:“从6月开始整个故障处理的时间以及次数都有明显的下降,使得在有限的运维资源,效率有非常大的提升,所以说在整个项目的合作中袋鼠云发挥着举足轻重的作用。”
其实,中航金网结缘袋鼠云已有两年之久,从一开始的数据库运维,到运维体系的咨询,再到智能运维平台的开发建设等,都是与袋鼠云在合作。在赵维五眼里,袋鼠云公司不仅有阿里的背景,而且整个IT的技术实力、资源也是非常富足,这是中航金网非常信任袋鼠云的原因。
未来,除了在整体的IT资源规划和数据库的管理方面,赵维五期待在智能运维方面能够与袋鼠云有更多、更深、更广的合作。
|