阿克琉斯之踵,金融企业的数字化之痛
《新金融世界》记者见到云智慧(北京)科技有限公司副总裁李诚的时候,他刚刚从客户现场回到公司。据介绍,这是一家数字化步伐比较快的大型金融机构,在国内拥有3个数据中心,600个业务应用系统,上万台物理设备,系统彼此之间调用关系复杂,并且部分核心业务之间具有强依赖关系。
这些应用系统每天产生海量日志数据和告警信息,对日志报文数据的处理分析需要3-4个小时,时效性差,效率低。“随着新业务的不断上线,运维团队每天会接收上万条的故障告警通知消息,漏报、错报情况频发。故障发生时,需要各部门协调才能定位解决问题,平均故障解决时间在6个小时以上,整体运维效率已经成为制约企业数字化发展的障碍。”李诚告诉记者。
2016年,随着AIOps从概念到落地,让这家金融机构的CIO看到了希望——利用智能运维消除传统IT支撑系统与数字化业务之间的数据断层,简化运维操作复杂度,有效提供运维效率,持续改善业务运行状态。经过两个多月与云智慧的沟通和深入调研,李诚针对客户的运维痛点开出了一剂良方——云智慧智能业务运维DOCP平台。
基于多数据源,贯穿四大场景
云智慧是从2016年开始涉足智能运维,在过去两年里,李诚和他所带领的云智慧技术支持团队已经为近百家大型企业实施了智能运维解决方案,并获得了成功。以此为基础,云智慧推出了面向业务和IT全生命周期的数字化运维和运营管理解决方案——智能业务运维DOCP(Digital Operation Central Platform),以实时大数据处理、AIOps技术体系为基础,通过渐进式的大数据运维、业务运维和智能运维解决方案,搭建起一体化的数字化、智能化运维管控中心平台,通过平台赋予企业强大的大数据处理能力、算法能力和分析能力。
从技术角度来看,实现智能运维AIOps还是具有相当的门槛的。
首先企业必须拥有大数据分析处理能力。在运维领域,整体的数据量很大,数据来源包含基础监控、网络质量、APM数据,还有日志数据等等,数据类型包含了机器数据、文本数据、流式数据等。而且更重要的一点是,作为运维系统,这些数据是实时产生并持续增加的。因此,智能运维对系统的实时数据采集、存储和分析能力都有很高的要求。
而在此基础之上,智能运维的核心价值在于场景化。“智能运维必须是基于客户实际应用场景,解决实际业务问题,才能有效提升IT运维效率。云智慧梳理了智能运维主要的四大类应用场景:检测、分析、发现(告警)、处置,大数据和人工智能技术始终贯穿于这四大类场景之中,通过数据的持续分析、积累和业务建模的不断优化,最终带来真正意义上的智能运维。” 李诚表示。
总而言之,智能运维的价值体现在三个方面,首先是发现问题的时间缩短了,其次是解决问题的时间也变短了,更高级的是能够通过故障预警,提前发现问题,将隐患消解于无形。
逐步深入,金融行业智能运维落地的三个阶段
众所周知,金融企业的IT系统具有业务价值高、系统规模大、复杂程度高等特点。因此,金融企业智能运维的落地也不是一蹴而就的,可以分为三步解决方案。
第一阶段是大数据运维,构建统一监控平台,实现IT资源的统一管控。利用大数据的手段,采集、分析基础设施、网络、日志等IT监控数据,通过海量IT数据的实时处理分析,消除数据孤岛,实现统一的告警,提升运维管理效率。
第二阶段是业务运维,全面提升用户体验和业务系统健康,实现业务和IT的双向驱动。用户体验和业务效能是数字化业务的两大核心指标,通过IT和业务双向驱动的业务运维,能够帮助企业发现IT故障对业务造成的影响有多大、IT如何更好的支撑金融业务转型、如何最大程度的降低业务损失。
第三阶段是智能运维,构建智能化的IT运营管控体系,持续提升业务价值。通过智能告警、异常监测、根因分析、自动处置、故障预测,极大提升IT运维效率, 保障业务连续,减少业务损失。
以前文提到的金融行业客户为例,通过云智慧智能业务运维DOCP,无论是整体运维工作效率,还是核心 KPI 都有大幅度的提升,同时IT运营也初步实现了数字化和智能化。“由于金融行业的IT成熟度普遍较高,所以目前70%~80%的金融企业都具备了第一阶段的基础,而50%的客户开始部署第二阶段的业务运维,也有一些金融客户从今年开始尝试采用AIOps解决方案。”李诚表示“通过DOCP平台,我们连接起前端业务和后端应用系统,实现了多种数据源和算法模型的融合,持续提升业务运营和IT管理效率,从而最终实现智能运维。”
|