告警风暴的处理,如何抑制告警风暴?

北野 737 2022-11-03

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

通常当应用服务出现故障时,会伴随大量告警,告警风暴便产生了。因告警风暴的数量非常大,如果运维工程师手工检查每一条告警,系统排障过程会耗费大量的时间和精力。

需要回答如下问题:

“告警风暴中到底发生了什么故障”

“哪些告警与故障相关”

“告警风暴的核心内容是什么”

目前现状:

一,告警风暴出现的频率很高;

二,当前对告警风暴的识别方法是人工设置固定阈值,无法适应动态的在线场景;

三,告警风暴中包含有的常规告警,与故障相关的告警也存在关联,如文本和拓扑相关性。

需处理的问题:固定阈值的告警风暴检测表现不好,混杂在故障中的不相关告警影响排障,需要做告警降噪,告警之间复杂的关联关系也需要建模来精炼。

警风暴检测:需要知道什么时间发生了告警风暴。监控告警的数量,将告警风暴检测转化为一个突变点检测,使用EVT去自适应准确检测告警风暴。

告警风暴摘要:准确检测到告警风暴发生后,需要做三个步骤:基于学习的告警降噪,将告警风暴中与此次故障无关的告警全部删除;差异化的告警聚类,总结告警里有多少告警簇;代表性告警选择,在每一个簇找到代表性的告警选择,减少工程师看的数量。

最终通过告警风暴摘要,选取出与故障相关的告警集合,并且这些告警能够从多方面反映故障。

告警风暴摘要的三个步骤:

步骤一:基于机器学习的告警降噪,可将其转为异常检测的问题,因为故障不常发生,经常发生的告警和这次故障没有关系。经常发生的告警像异常检测里定义的日常情况,而不经常发生的罕见告警有像异常情况。使用isolation forest方式检测到的罕见告警,更有可能和故障相关,在这过程中对告警进行属性提取和特征统计。

步骤二:经过告警降噪过滤后,剩下的告警做告警聚类,使用DBSCAN聚类方法。对聚类的度量,也就是相似性度量,因考虑了文本相似性和拓扑相关性,所以使用Jaccard距离;拓扑相关性定义了软件层面和硬件部署层面两种拓扑,使用它们相连的最短路径去刻画拓扑相关性。

步骤三:有了告警相关性,使用聚类方法得到告警的类,每一类均代表对故障的描述,选择一个聚类中心来作为代表性的告警。

如何抑制告警风暴?

IT系统架构是一个聚沙成塔的过程,随着业务规模的不断扩大升级,IT架构的复杂程度随之提升。在庞杂的IT架构下,应用系统紧密相连,一个指标变化,就可能引起一场告警风暴。

如何行之有效地抑制告警风暴,高效处理告警问题,是运维必须面对的课题。

避之不及的告警风暴

冰冻三尺非一日之寒。

PUA运维的从来不需要领导,告警风暴就能轻松拿捏住。

如何抑制告警风暴?

如何从海量告警信息中快速归因?

如何快速定位告警问题?

如何沉淀告警处置经验?

如何快速恢复业务运行?

解决这些问题是一个优秀运维工程师的自我修养。

不得不说,运维工程师还是有点学习本能和天赋在身上的,即使是远离课堂,很少考试的职场人,也逃不过“学习基因”变得显性。接下来本着分析问题--解决问题的思路,和运维打工人一起探讨告警风暴的解题思路。

为什会产生告警风暴 ?

1、系统强关联 

当用户访问应用系统,彼时系统将调用链路上多个IT单元,其中一个环节出现问题,就会导致业务故障。多个监控系统可能引发其他多个相关的告警,重复告警高达90%以上。

2、指标难设定

不同类型的指标,往往适合不同类型的模型和参数,无法单独设置模型和参数,分类效果不佳。阈值过高,容易漏报故障;阈值过低,容易产生大量无效告警,影响运维工作效率。除此之外,周期设置同样影响告警的有效性。

3、告警响应不及时

一个告警问题处理往往需要内部流转,同一处理进度被推送多人处理,则大大降低了工单的处理效率,并且造成人力资源的浪费。缺乏高效流程机制,加上大量重复无效的信息,造成告警处理延时或遗漏,产生告警风暴。

除此之外,历史遗留问题、工程师不解决或者是无法解决的告警问题也会产生告警风暴。

如何从根本上解决风暴 ?

综上,要解决告警风暴问题,首先要解决告警准确性和处理效率两大问题。

对于这两个需求,AI机器学习算法在应用上展示优异的效果。

1、多指标检测 

内嵌多种检测模型,适用于多种形态的指标检测,通过对指标的趋势性、周期性等特征的捕获和学习,抑制告警风暴产生,提供更加精准的告警。

2、时序性指标检测  

时序性指标异常检测,采用业内领先的机器学习算法,根据指标数据的历史变化规律,无需用户手动设定阈值,检测指标异常自动发送告警。

动态阈值支持各种监控和运维场景。包括(业务时间序列数据,基础监控时间序列数据等)的时序性指标异常检测,预制时序性指标的AI告警规则,无需设定阈值或基线。避免由于固定阈值产生的误报漏报重复报问题,收获更加精准的告警。

3、快速响应告警  

系统预设规则,客户可根据情况自定义。设置规则告警级别,提醒告警触发的后续处理环节。部分告警提供简单的解决方案,可以快速处理异常。

在用户体验方面,系统设置在线值守的工程师,时刻关注系统状态。当用户遇到问题,工程师会联系用户,第一时间让客户掌握具体情况,并提供相应的解决方案,高效地解决故障隐患。

上一篇:北科维拓加入openGauss社区
下一篇:软件测试培训之新增文件测试的测试点
相关文章

 发表评论

暂时没有评论,来抢沙发吧~