告警根因定位系统（告警根因定位系统故障）-睿象云平台

告警根因定位系统（告警根因定位系统故障）

4747 762 2022-11-06

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本文目录一览：

1、运维监控工具太多，根因定位不够智能和快速，如何解决？
2、智能运维是如何抑制告警风暴的？

运维监控工具太多，根因定位不够智能和快速，如何解决？

常规的运维监控工具，基本都是监控某一种设备或某种应用的数据，并且通过阈值的设置来进行故障告警。这样虽然也达到了监控的目的，但在实际使用中，常遇到一个个设置阈值特别麻烦、阈值设置不合理造成告警过少或过多、不同监控数据之间没有关联，出一个故障各系统都在告警，难以判断根因的情况。

智能运维AIOps系统，能通过“数字运维中台”，将原有的分散的运维监控数据统一采集、存储、归档到中台内，并且利用“统一监控平台”对这些数据进行分析管理，如果原来有CMDB数据，还能建立关联并生成拓扑图。

当故障发生、系统告警时，告警辨析中心能利用规则和算法，锁定最重要的那些告警信息，并根据统一监控平台梳理的数据关系，协助查询日志及其他故障数据，更快定位根因。

智能运维是如何抑制告警风暴的？

通常智能运维中的告警收敛场景，以机器学习算法为驱动，对海量的告警事件进行降噪和关联分析，辅助根因定位并可沉淀故障处理的知识，从而提升企业的运维效率，降低运维成本。告警产生后，AIOps系统通过算法甄别内容相关性（重复性、相似性）、时序相关性和拓扑相关

性事件来进行告警事件的自动化抑制。这类收敛抑制，往往能得到99%的告警压缩率，极大地提高了告警有效性。

在一个完整的智能运维告警产品里，除了告警收敛，还可以基于故障传播链及拓扑信息 ( 可选 ), 智能发现突发故障场景；基于告警“熵值”算法，实现告警的动态优先级推荐；通过时序以及拓扑关系定位故障场景根因，并进行根因标记。当这些都可以完成时，由告警事件一步步引导的根因定位和排障，才是真正智能运维发挥了作用。

监控数据的可视化分析神器 Grafana 的告警实践

762 2022-11-06

告警根因定位系统（告警根因定位系统故障）

运维监控工具太多，根因定位不够智能和快速，如何解决？

智能运维是如何抑制告警风暴的？

AIOps 平台的误解，挑战及建议， AIOps背景及所应具备技术能力分析（上）

监控数据的可视化分析神器 Grafana 的告警实践

智能运维是一场颠覆式创新