实时警报通知:微信告警通知的重要性解析
946
2023-01-17
本文讲述了告警压缩与降噪,告警压缩合并算法。
运维监控工具/平台,一般是通过配置固定阈值,达到阈值后自动触发/生成告警。如网络中断、闪断;系统升级更新;设备多监控内容多等情况下,更会产生海量告警。以下为告警管理常见问题:
l 故障期间,告警风暴,手机/邮箱会被海量告警淹没;
l 运维人员很难从海量告警从筛选出重要告警,容易忽略重要告警;
l 固定阈值控制,频繁误报、漏报告警;
睿象云智能告警平台 Cloud Alert(后文为:CA)适应不同行业、不同规模、不同运维水平公司的各种告警需求,平台支持多维度告警压缩合并与降噪,帮助您在不遗漏重要告警前提下,快速减少告警。
CA实现告警降噪根据降噪程度不同,分为事前和事后共三种方式:
事前:也就是影响告警通知的方式;
事后:不影响告警通知的方式,可以用作事后分析判断。
1. 自动去重压缩;(事前)
2. 规则压缩;(事前)
3. 算法智能降噪(事后)
全量告警推送到CA平台后,CA平台会自动基于时间序列,将相同的事件/告警压缩。不同监控工具去重压缩机制有细微差异:根据 eventId(事件ID)和告警对象,去除重复告警。
自动去重后的告警,会按照压缩规则,将相似、同源(同一设备不同类型的信息)告警再次进行压缩。一共分为两种压缩机制,分别是:
1. 算法智能降噪
2. 自定义压缩规则降噪
算法智能降噪
主要原理是将指定时间内的告警,提取相应的关键词放在一组模板中,通过我们的算法将告警进行比对,符合要求的告警会被压缩、整合后在进行通知。
自定义压缩规则降噪
用户可根据自身需求来设置主机、服务、告警内容、告警对象的压缩条件,设置完毕后告警会根据告警压缩规则,来进行压缩降噪。
这个事后的算法智能降噪,用于用户的告警分析,使得用户可以清晰的排查告警主要出现的问题在哪,是在通知后进行的,所以不影响告警通知,其中有两种降噪方式,分别是:
1. 高聚合智能算法降噪
2. 仿阅读智能算法降噪
高聚合智能算法降噪
主要原理是将告警的内容,进行文本以算法进行比较,将符合要求的告警文本进行告警聚类。
仿阅读智能算法降噪
主要原理是将告警内容模板化,再将告警模板以一种特定的算法进行对比,将符合规定的告警进行合并。
仿阅读智能算法比高聚合智能算法,降噪条件更严格,因此聚类后的结果一般多于后者。
一个高效的压缩与降噪方式,能够有效的避免告警风暴问题,并且能够减少大部分的成本。更多高效功能,欢迎点击下方卡片,体验试用产品!
告警分组合并支持自定义合并模式和智能合并模式,即通过自定义合并规则或智能算法,将重复、冗余、相关联的告警合并为一组,每个分组中的告警在一段时间内只会通知一次,达到告警降噪的效果。本文介绍智能合并模式的原理和配置。
告警显示名称 规则所在项目 告警标签 告警标注 自定义合并模式是通过内置的合并基准或自定义合并基准完成合并分组的。更多信息,请参见多种告警分组合并。 全文:基于告警显示名称、规则所在项目、所有的告警标签以及所有的告警标注进行智能合并。 自定义:支持自定义设置合并基准,即您可以自定义选择告警显示名称、规则所在项目、告警标签和告警标注,告警管理系统将基于您的选择对告警进行智能合并。原理说明
告警智能分组合并是通过NLP(自然语言处理)算法,并基于如下告警属性(全部或部分),自动化学习告警之间的相似、相联关系完成合并分组的。配置说明
在创建告警策略时,打开智能合并模式开关,开启告警智能分组合并功能。对应的参数配置如下所示。参数 说明 合并基准 设置合并基准,支持全文和自定义。 行动策略 选择目标行动策略。更多信息,请参见创建行动策略。 首次等待 在该首次等待时间段内,新触发的告警按智能算法自动合并,然后再通知。 重复等待 如果一个告警合并集合已经被发送通知,那么在该重复等待时间段内,该合并集合中新触发的告警不会再重复通知。 上文就是小编为大家整理的告警压缩与降噪,告警压缩合并算法。
国内(北京、上海、广州、深圳、成都、重庆、杭州、西安、武汉、苏州、郑州、南京、天津、长沙、东莞、宁波、佛山、合肥、青岛)睿象云智能运维平台软件分析、比较及推荐。
发表评论
暂时没有评论,来抢沙发吧~