|  首页  |  资讯  |  评测  |  活动  |  学院  |  访谈  |  专题  |  杂志  |  产服  |  
您现在的位置:硅谷网> 资讯> 软件>

云智慧AIOps智能运维应用实战之告警抑制(图)

2018-10-24 11:35 作者:佚名 来源:硅谷网 HV: 编辑:何睿 【搜索试试

自2016年Gartner提出AIOps智能运维以来,诸多中国云计算、大数据和运维管理厂商都推出了AIOps解决方案,然而这些实践多是针对特定IT环境和应用场景进行智能化处理,放到其他行业或企业中就很难适用,这也限制了企业用户对AIOps的认知和尝试。

云智慧作为国内最早开始探索AIOps智能运维的独立解决方案提供商,在过去两年里陆续为数十家不同行业、不同应用场景的大型企业成功实施了智能运维,积累了丰富的智能运维应用场景和解决方案,并率先实现了AIOps智能运维的产品化、场景化和实用化。接下来这段时间,我们会为大家介绍云智慧AIOps智能运维平台的智能告警、根因分析、智能预测等产品模块,及其在不同用户场景的应用价值,希望为大家正确理解和选择AIOps提供参考。

企业IT系统运行过程中会产生海量日志数据、监控数据,这部分数据既满足大数据的属性,又隐藏着巨大的业务价值,因此企业进行AIOps实践多是从智能告警入手。今天我们就来介绍智能告警的第一个环节——告警抑制。

告警抑制典型应用场景

中大型企业的IT应用系统庞大而复杂,设备数量动辄成千上万,任何一个小小的IT问题都有可能引发“告警风暴”。所谓告警风暴是指在短时间内系统产生大量告警消息,这些消息有的是由某种共同因素引发,互相之间存在一定关联,有的则没有任何关系。

以云智慧服务的某大型企业为例,某次告警风暴产生时,平均每分钟800+条告警消息,运维人员每天接收各类告警消息多达2万条,导致运维人员疲于应付大量的告警消息,需要耗费更多时间排查和处理问题,大大降低了运维效率,而且由于无法第一时间发现根源问题,延误了故障处理时间,往往会给业务运行带来潜在风险。

压缩比高达90% 告警抑制功能特点

常规的运维监控产品都是根据固定阈值触发告警,这种监控方式会频繁遇到告警报错、漏报、告警风暴等问题,严重干扰运维人员的工作效率。云智慧AIOps智能运维平台的告警抑制产品针对海量的、持续的冗余告警消息,通过智能算法结合固定规则的方式对告警消息进行告警压缩和告警合并,在保证核心告警内容(即不压缩核心告警内容)的前提下抑制告警消息数量,为运维人员提供有效的告警信息。

云智慧智能运维平台告警抑制流程

我们把相同告警源产生的重复消息进行压缩的过程叫告警压缩,告警压缩是实现告警抑制的前提和基础,通过告警压缩可以减少70~80%的重复告警,并在此环节把告警消息(Message)生成为警报(Alert)。接下来,将不同告警源产生的警报按照规则、算法进一步合并的过程叫告警合并或告警收敛。通过告警合并,告警消息的压缩比可提升到80%~90%。

下面用几个实例来解释一下云智慧智能运维平台的告警抑制流程。

例1:告警压缩

用户利用 Zabbix 对服务器BJ_Pay_ngix_1进行监控,监控了 CPU Load,监控频率为10s。在13点24分开始触发 CPU Load 告警,并且持续了8分钟未恢复,整个期间产生了50条重复告警消息,通过云智慧智能运维平台的告警抑制,将50条消息压缩为1条警报(Alert),并可以通过时间线功能,查看整个生命周期内的告警分布情况。

例2:告警合并(告警收敛)

主机BJ_Web服务1产生 CPU、内存使用率的告警,同时同一个集群的 BJ_Web 服务2也产生了 CPU和内存使用率的告警,通过告警压缩生成4个警报(Alert),通过告警合并将集群内所有警报合并为一个告警事件(Event)。当然,也可以基于业务线对业务告警、APM 告警等警报进行合并,然后通过时间线功能,查看多个警报之间的时间顺序,来初步判断告警的根因情况。

以上是云智慧AIOps智能运维平台告警抑制功能的基本原理,此产品不但能接入云智慧自有的监控宝、透视宝等告警源,还可以通过REST API 、Agent、URL 回调等方式对主流监控Zabbix、Nagios的告警数据进行接⼊,或根据客户需求对特定告警源进行定制化接入。此外,用户可配置各类抑制规则,设置 事件通知的分派策略,获得更高压缩比、更快速的智能告警。

如今,云智慧AIOps智能运维平台的告警抑制产品已经在金融、航空、地产、制造、政企等多个行业通过线上环境的生产验证。由于客户类型和业务系统的差异,实际压缩率可高达95%,并做到了核心内容零损耗。

告警抑制典型案例

某大型企业集团拥有在线商城、办公系统、财务系统等核心系统,涉及到多地多个机房和几十套应用子系统,频繁的告警消息对运维工作造成了极大干扰。为避免此类干扰,该集团的运维人员只能临时关闭若干系统的监控功能,但这种方式导致了业务系统与基础环境的监控缺失,无法有效实时掌控整个运维环境的运行。

云智慧工程师根据对历史故障的分析,把该企业的故障分为几类:

•闪断类:故障发生后迅速自愈

•重复类:单个对象的一个或多个指标持续告警

•范围性故障:某个区域或某个集群出现范围性故障,范围内的多个对象短期内同时出现告警

当以上几类告警在发生时,运维人员需要第一时间区分故障类型,才能快速定位问题。通过部署云智慧智能运维平台,利用REST API、Agnet 采集等方式对接各个监控系统,将告警消息进行统一汇聚和整合,然后进行有效的告警抑制处理,大幅降低告警事件的数量和告警发送的频率,同时提高了告警通知的精度。

某次故障发生后,某地数据中心短期内出现了上千条的告警消息,经过压缩合并后抑制成了几十条警报和不到10个事件,压缩率达到了95%以上。部署云智慧智能运维平台三个月以来,该企业运维人员每天接收告警数量从人均182条降低到了25条,同时整个运维团队的平均接手时间(MTTA)和平均解决时间(MTTR)都大幅缩短。

附注:Gartner于2018年7月13日发布的《Hype Cycle for ICT in China, 2018》中,云智慧成为AIOps领域的Sample Vendors。

【对“云智慧AIOps智能运维应用实战之告警抑制(图)”发布评论】

版权及免责声明:
① 本网站部分投稿来源于“网友”,涉及投资、理财、消费等内容,请亲们反复甄别,切勿轻信。本网站部分由赞助商提供的内容属于【广告】性质,仅供阅读,不构成具体实施建议,请谨慎对待。据此操作,风险自担。
② 内容来源注明“硅谷网”及其相关称谓的文字、图片和音视频,版权均属本网站所有,任何媒体、网站或个人需经本网站许可方可复制或转载,并在使用时必须注明来源【硅谷网】或对应来源,违者本网站将依法追究责任。
③ 注明来源为各大报纸、杂志、网站及其他媒体的文章,文章原作者享有著作权,本网站转载其他媒体稿件是为传播更多的信息,并不代表赞同其观点和对其真实性负责,本网站不承担此类稿件侵权行为的连带责任。
④ 本网站不对非自身发布内容的真实性、合法性、准确性作担保。若硅谷网因为自身和转载内容,涉及到侵权、违法等问题,请有关单位或个人速与本网站取得联系(联系电话:01057255600),我们将第一时间核实处理。
广告
相关
·云智慧AIOps智能运维应用实战之智能关联分析
·航空工业采购平台在智能运维的创新和实践
·智能运维AIOps从概念到落地 数据与场景的突破
·开启智能运维创新服务 神州信息激活电信服务新动
·赋能互联网级运维能力 云智慧的数字化之道与术
·新华三U-Center智能运维解决方案全国巡展亮相上
头条
“魔搜”软件开发者张某被判刑1年2个月缓刑1年10个月 “魔搜”软件开发者张某被判刑1年2个月缓刑1
一个取名魔搜的软件篡改消费者在电商平台的购物浏览记录,企图通过数据造假制造爆款。……
·“魔搜”软件开发者张某被判刑1年2个月缓刑1
·45款应用程序遭谷歌下架 猎豹移动股价惨跌16.
·腾讯会议一星好评,如何占得线上视频会议市场
·高仿APP捞钱套路:蹭官方、发广告、索取隐私
·报告称APP的支出和使用率在2019年达到创纪录
图文
“远程办公”战线拉长,如何确保“私有化”办公?
“远程办公”战线拉长,如何确保“私有化”
友盟+智能认证:用户增长始于头,体验提升只需1.3秒
友盟+智能认证:用户增长始于头,体验提升
知米背单词APP那些不为人知的小细节(图)
知米背单词APP那些不为人知的小细节(图)
Realme引入广告什么情况 Realme广告怎么设置关闭?
Realme引入广告什么情况 Realme广告怎么设
最新
·“远程办公”战线拉长,如何确保“私有化”办公?
·友盟+智能认证:用户增长始于头,体验提升只需1.3
·“魔搜”软件开发者张某被判刑1年2个月缓刑1年10
·字节跳动称旗下办公产品飞书被微信全面封禁
·疫情下的危机,如何通过“信源豆豆”实现企业安全
热点
·群控、云控时代即将终结,智控时代已到来
·106短信群发平台APP,致力于成为领域内佼佼者
·DT小听App:防偷拍,还是用这款国产app(图)
·软件技术行业发展变化非常快,软件人才要按需
·嗨学网一级消防可靠吗?新手妈妈亲生经历告诉
旧闻
·社会“抢票软件”存隐患随时有可能被屏蔽
·漂亮有创意的思维导图怎么画?办公也有小技巧
·微软发布2013年首批补丁 暂未修复IE漏洞
·喜推人工智能名片:看懂客户心,销售才能更欢
·全国多地上线电子社保卡 微信10秒即可申领
广告
硅谷影像
“远程办公”战线拉长,如何确保“私有化”办公?
“远程办公”战线拉长,如何确保“私有化”办公?
友盟+智能认证:用户增长始于头,体验提升只需1.3秒
友盟+智能认证:用户增长始于头,体验提升只需1.3
“魔搜”软件开发者张某被判刑1年2个月缓刑1年10个月
“魔搜”软件开发者张某被判刑1年2个月缓刑1年10
打响“科技防疫战” 中软国际解放号在行动
打响“科技防疫战” 中软国际解放号在行动
钉钉5.0新增在线办公室、圈子,满足用户个性化需求
钉钉5.0新增在线办公室、圈子,满足用户个性化需
钉钉5.0产品见面会 彩蛋Real如我曝光号召无压力分享
钉钉5.0产品见面会 彩蛋Real如我曝光号召无压力分
关于我们·About | 联系我们·contact | 加入我们·Join | 关注我们·Invest | Site Map | Tags | RSS Map
电脑版·PC版 移动版·MD版 网站热线:(+86)010-57255600
Copyright © 2007-2020 硅谷网. 版权所有. All Rights Reserved. <京ICP备12003855号-2>