有了人工智能技术,告警管理会发生什么变化?

来源网友投稿 844 2022-09-17

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

互联网时代 IT 相关的衍生产品多种多样,其中监控工具成为了其中的佼佼者。多种多样的监控工具对于确保网站和应用的平稳运行做了非常多的工作,但是,对于告警产生到通知运维人员的过程,还有很大的改善空间。


举个例子:假设某企业的 IT 环境中的某个底层基础设施,如网络或存储设备出现异常,相关联的主机、中间件数据库、消息队列、缓存,应用程序,业务服务会受到影响。当监控和管理系统全面的探测发现这些问题的话,会在数十秒钟产生大量的告警事件,而且这些事件随着时间的推移不断的发生。设想一下如果把所有的告警全部都加入通知提醒的话,想必运维人员的邮箱会瞬间爆满。实际上,随着规模化和复杂度增加,这些现象经常性发生。


通过智能聚类实现事件事物化


回到文章开始的例子,降噪将告警事件处理后,还有数十数百个事件,很多是类似的,例如存储类 Lun1、Lun2 故障,主机 A\B\C… 故障,数据库 Master1、Master2、Slave1… 应用 Order_1_8080,order_2_8080…,业务支付、门户等。其实就是有几类事情,存储类、主机类(支付类主机、门户类主机)、数据库集群、支付类应用、门户类应用等几大类。从职责划分和管理流程方面,也是不同团队负责。如果能够将这些零散的事件分门别类,就更清晰和有助于处理(职责划分)。

睿象云希望通过轻量级的方式和重量级相结合来实现聚类的准确性。轻量级的意思是,通过算法和简化的策略规则,无需过多的前提条件,快速实现告警事件的聚合。将上述例子中的大量事件,划分为存储、数据库、应用和不同业务。


告警事件之间是存在一定的关联性的,将一组类似的有关系的事件聚合在一起就是一个场景。以场景为单位去实现团队的分派/协作,最终解决问题,而不是单一事件的逐条解决。用户可以通过组合服务可以将单个业务下多个对象产生的事件进行聚合,如将承载 OA系统的服务器、网络、中间件、数据库、应用等事件和告警从海量信息中剥离出来,汇总到一个 OA 服务之中,交由负责该系统的团队进行统一的管理和分析,从而提升业务管理的可见性。

0016061397c04a86ac961a9c0566921

利用人工智能无监督学习技术,结合自然语言处理 NLP,我们从内容相似性、相关性进行数据挖掘和学习。内容相似性上,我们利用在降噪过程中我们建立的专业语料库,能够识别出当下相似告警,将符合相似度(如80%)的事件聚合在一起。时间相关性上,可以根据事件发生的时间差,在一瞬间爆发的大量事件是存在一定关联性的,特别是开篇的那个栗子。然而由于监控工具的数据采集问题,现实的事件并不是严格的按照时间序列过来的,例如业务故障和存储故障,从直觉角度上看,应该是存储故障先发生,之后才影响业务。实际上,两者的事件时间有可能是相反的。

通过算法,在没有过多的前提条件下,实现将相似相关事件聚合称为一个场景。与降噪一样,算法应该跟上下文和环境相关,所以未来在聚类的方面可以做的更深入,更重量级。


助力识别问题根因


到现在为止通过降噪将事件从数千数万降低为数百数十,聚类降低为数类数十。对于告警已经基本上实现了更高效的处理问题,然而,我们总是期望能够定位到根源,甄别是那些异常引发的,快速识别根因是所有IT支撑工程师的追求。


现实是很困难,如果想100%的确定根因,必须对 IT 环境的每个环节和设施进行管理,并建立数据模型。在当今的规模化、虚拟化、微服务化情况下,这是很困难的事情。所以往往依赖于有经验的工程师进行分析和判断,如果在跨职责、跨业务、跨团队的时候,就需要多个不同领域的专家工程师去诊断和分析了。

借助人工智能算法,通过有监督的训练方式,通过历史和人为标注的数据。工程师每一次的根源识别,都可以作为机器学习训练的素材。随着时间的推移,诊断标注的根源数据积累越多,机器就能够准确的识别出因果关系,根源识别也越来越准确。像前文的例子中,如果有类似历史数据,并且完成人工标注,那么再次发生的时候,我们就可以判断存储或者是网络故障是根因,可能性85%。通过人工智能方式,逐渐的摆脱严重依赖专家工程师的模式,让运营支撑系统成为一个能够自我学习和进化的智能系统。


识别场景,甄选根因后,我们基本上就可以着手解决问题。在处理问题的过程中,会出现一个知识传递的问题。例如有经验的工程师和新入职的工程师的差异,其实这就是一个集体知识共享的问题。我们也通过人工智能的方式做了一些尝试,让整个事件(告警)处理更流畅起来。场景历史推荐,对于新发生的场景,如果以前有类似的场景,系统会推荐出来,如在上个月有一个类似的故障,相似度80%,也是一个存储类故障。通过查看历史场景的解决方案/过程,帮助我们做决策,可以快速的复用历史知识。整个过程中,人工智能自动学习和推荐,告别人工手动编辑知识文档的方式。所以经过一定时间的积累,这些解决方案将沉淀为企业特有的知识储备,而不是一个泛泛的功能。为之后的发生相同或是类似事件提供可参考的解决办法。


人工智能技术的应用和实践会越来越多,我们有理由相信 AIOps 会对 IT 运营支撑产生极大的影响力。我们的智能告警平台和智能事件平台也都还在这个领域里不断的探索中,欢迎大家登陆睿象云官网进行产品试用,与我们一起探索。

随着更多的用户对人工智能的了解应用,相信不久的将来,正如 Gartner 说的,未来将有越来越多的企业使用 AIOps 方式运营支撑,人工智能对企业 IT 运营效率的提升和变革,也将促进这些企业的商业发展提速。


上一篇:想要完成系统性能评估? 试试【云压力测试 + APM】的端到端压测解决方案
下一篇:AIOps 让「事件管理」变得更加智能
相关文章

 发表评论

暂时没有评论,来抢沙发吧~