从信息化时代开始,企业IT系统就在不断的生产着各种监控数据和业务数据,但信息孤岛的存在和数据处理能力的限制,让无数企业空守宝山而无用。时至今日,虽然横向扩展的分布式架构、通用灵活的云计算系统得到广泛普及,但是IT数据所提供的业务价值不但没有提升,反而因为数据量的指数增长和双模IT(Bimodal IT),数据竖井(Data Silos)的问题愈发严重。
智能关联分析与上一篇《云智慧AIOps智能运维应用实战之告警抑制》是相辅相成的,告警消息通过有效的关联,获得更高的压缩比;而关联分析所面向的数据不但来自于告警抑制输出的警报,还有日志数据、业务指标数据等,因此部署了告警抑制之后,可通过智能关联分析获得更有价值的数据结果。
智能关联分析的典型应用场景
企业的应用系统架构复杂,技术体系多样,离散地采用了多种监控系统来实现不同的技术栈监控,如基础设施与服务采用开源的Zabbix、第三方的监控宝,网络监控使用Solarwinds软件,应用性能管理采用透视宝等,还有一些业务和性能使用日志分析的手段进行监控。
在常规的运维工作中,由于业务系统的拓扑结构非常复杂,当不同监控系统产生大量监控数据并生成警报时,运维人员很难判断警报的分布范围以及各个警报之间的关系。云智慧AIOps智能运维平台智能关联分析,利用大数据分析和机器学习等人工智能方法,对客户现有的业务、设备、网络拓扑图等信息进行自动梳理,形成业务逻辑拓扑关系图,将杂乱的IT数据和业务数据进行分类,并与拓扑关系图中的节点匹配,帮助运维人员明确故障的根本原因和影响范围,提升运维效率。
智能关联分析的特色和价值
云智慧AIOps智能运维平台的智能关联分析产品对于IT运维管理人员具有以下特色和价值:
离散数据的多维聚合分析,寻找根源问题更加全面
从应用性能管理软件、系统日志、Zabbix等多种监控系统中采集性能数据,在采集过程中实时对指标进行各个维度的标定并建立关联关系,通过关系对各个技术栈进行全局分析,这种方法突破了原有方法分析问题的局限,帮助用户快速诊断出问题并进行修复。
精准定位故障,有助于快速处置
利用云智慧大数据平台PB级数据处理能力,采用机器学习的方法建立多指标关联分析模型,全面而精准地从单一用户视角来追踪故障问题,使用故障根因自动定位技术能够提高故障定位速度,从而提高业务可用性。
不仅基于单纯的时间切片方法构建关系,还利用了应用调用链关系、基于聚类等职能分析算法的自动关系发现与构建算法,从而提升了关系构建的完备性和准确性。
此外,云智慧AIOps智能运维平台智能关联分析,还能以业务链上每个对象的KPI的变化进行监控和关联分析,帮助业务部门掌握业务运行规律,降低业务运营风险。
智能关联分析典型案例
云智慧某大型金融客户的业务生产环境有基础硬件上千台,各个业务系统的依赖与调用关系非常复杂。当出现问题时,往往需要数小时才能对故障进行定位,并且过程中需要协调研发、运维等多个部门的人员来进行,整体效率低。
通过已有的 APM、基础设施监控等监控系统,获取各个业务的内部拓扑关系,然后根据业务链整理出核心业务拓扑图十几个,分别将这些拓扑图导入云智慧AIOps智能运维平台,并为每个拓扑图中的节点设置告警匹配的条件,实现告警消息与业务拓扑的配置。最后,将告警事件匹配到拓扑中,运维人员可以在故障发生时,通过智能关联分析功能,迅速定位根因和故障的影响范围。
在实际的生产过程中,该企业的故障修复时间一般为数小时到1天不等。而使用云智慧AIOps智能运维平台智能关联分析之后,大规模故障的修复时间有效地减少到了一小时以内,完成问题定位、止损以及故障修复的全部工作。
总结
云智慧智能运维AIOps平台智能关联分析,以企业现有IT监控数据、日志数据和业务数据为突破点,通过应用高性能大数据处理和人工智能技术,对业务、应用、设备、网络等信息进行智能化梳理和逻辑关联,建立数据层的拓扑关系,消除IT数据内部和业务数据之间的断层,深入发现IT数据的核心价值,成为企业打破IT系统之间的数据竖井壁垒的最佳选择。
|