告警趋势分析算法(什么是趋势预警)

来源网友投稿 1094 2023-03-27

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈告警趋势分析算法,以及什么是趋势预警对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享告警趋势分析算法的知识,其中也会对什么是趋势预警进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

智能运维是如何抑制告警风暴的?

通常智能运维中的告警收敛场景,以机器学习算法为驱动,对海量的告警事件进行降噪和关联分析,辅助根因定位并可沉淀故障处理的知识,从而提升企业的运维效率,降低运维成本。 告警产生后,AIOps系统通过算法甄别 内容相关性(重复性、相似性)、时序相关性和拓扑相关
性 事件来进行告警事件的自动化抑制。这类收敛抑制,往往能得到99%的告警压缩率,极大地提高了告警有效性。

在一个完整的智能运维告警产品里,除了告警收敛,还可以基于故障传播链及拓扑信息 ( 可选 ), 智能发现突发故障场景;基于告警“熵值”算法,实现告警的动态优先级推荐;通过时序以及拓扑关系定位故障场景根因,并进行根因标记。当这些都可以完成时,由告警事件一步步引导的根因定位和排障,才是真正智能运维发挥了作用。

如何快速、灵活的实现告警通知,第一时间解决问题?

数据中心产生告警噪音,一般由两个大的原因所引起:1、存在大量重复的告警:大多数监控系统关注的点在快速、无遗漏地将异常告警抛出。2、大量的告警因为服务组件之间的相互依赖关系、相互影响,而产生的大量的关联告警。
所以,在告警发生的时候,可以使用告警优先级推荐算法来分析处理问题。根据规律特征进行判别,看是否需要立即关注。再配合自动化工具,将推荐等级与原始等级都高的告警加上筛选规则,进行自动化开单处置。发现推荐等级与原始等级有背离的部分,可以筛选出来做复盘,对告警原始的等级进行优化,或者转化成升降级的规则逻辑来处置告警等级。擎创告警辨析中心4.0是擎创科技研发的新一代智能告警管理、分析及处置平台,可配置能力更成熟,具有更开放的集成能力,可以将数据中心的监控系统、ITSM流程平台系统、自动化引擎系统、知识库系统、通知类平台等系统无缝集成,并驱动整个数据中心运维体系更快、更智能、更流畅运行。不仅可以满足科技能力及数据治理较强的企业需求,同时也可以通过智能化手段满足科技及数据治理较差企业的需求。

运营指标与告警策略思考

一、运营指标

用户指标数据 ,通过可以衡量用户体验告警趋势分析算法告警趋势分析算法的核心行为表现数据指标来衡量效果

业务性能监控, 各API状态等后台不可见的算法流程和内容

举例:

新闻产品: 首页推荐结果的点击率、各类新闻的占比等(拟合推荐策略效果)

电商产品 :单店日销售额、促销产品影响面(评估促销收益比)

云服务产品: 云服务可用率、云服务作业成功率

游戏产品: 业务规则监控(用户胜率、攻击频率上限)、系统可靠性监控

由于业务规则监控取决于业务方自己的业务属性较多,下文举例系统可靠性监控。

【1】请求数,请求到达速率

【2】正常响应数,正常响应占比

【3】错误响应数,错误响应占比

【4】响应延时

【5】消息队列长度,排队堆积时间、消息量

互联网系统根据计算机网络模型,可靠性监控可以分为下面4层。

【1】 应用层 :用户访问的前端页面、后端接口请求

【2】 服务层 :db,中间件等各种进程

【3】 硬件层 :cpu,内存,磁盘,网络

可靠性监控思考:

【1】不应该用采集的难度决定你使用什么指标去告警。

例如:很多情况下cpu使用率可能是最好采集的,但是未必是最值得告警的。

【2】不要给运维告警趋势分析算法他们想要的告警,而是要做“真正”想要的告警。

例如:运维告诉你它需要对db进程的cpu使用率超过x%的时候告警,它给你的是一个他认为最优的解决方案。但是他真正想要的是知道db服务是否有异常,cpu使用率超过x%未必是最好的告诉你服务是否出现异常的指标。
二、规则告警

告警规则 :根据历史数据定义一个正常波动区间,超出波动区间就报警。

告警策略主要字段: 名称、资源类型、监控对象、告警级别、告警策略(根据资源类型展示不同的数据信息)、监控指标对象、告警指标间处理逻辑、触发条件、告警频率、状态、最近改变时间

吿警方式 :

短信、电话 :成本高,实时性好,到达率高

办公APP :成本低,实时性中,到达率中

邮件 :成本低,实时性差,到达率高

告警收敛:

【1】服务运营指标收敛 策略:按服务名、运营指标去重

【2】模块告警收敛 策略:按照集群名称做去重

【3】接口告警收敛 策略:按照接口名称做去重

【4】告警频率收敛 策略:按照M分钟N次限制告警

【5】不同时段区分告警 方式策略:工作日/非工作日,白天/夜晚区分

【6】逐层上报 告警策略:先模块负责人告警,n分钟未恢复升级,m分钟未恢复再升级

【7】黑白跳动 策略:当系统由正常变为异常,异常恢复正常都通报

是否告警:

曲线平滑 :故障一般是对近期趋势的一个破坏,视觉上来说就是不平滑

绝对值的时间周期性 :静态或者动态设置最近一段时间的最低值、最高值

波动的时间周期性 :假设两个曲线不重合,在相同时间点的波动趋势和振幅也是类似的(即不同时间段的上、下限值的差是一致的)

波动回归正常值 :当曲线开始回升到历史范围的时候,一般可以确认这个时间段是真的故障了。同时也可优统计误警率,漏警率。

告警自动消除:

告警的实质就是“ 把人当服务用 ”。在一些事情还没有办法做到程序化执行的时候,用告警通知人的方式去干预系统达到修正的目的。后续通过收集异常问题,并制定相应的自动化解决方案,实现告警的自动消除。
三、产品画像

产品画像,可以结合已有的运营指标、研发指标、部署指标、故障指标去实现云服务产品画像。

在选取指标时,需要注意:

【1】指标真实有效,即服务可用率,故障率等指标的归属责任方式明确的

【2】指标同步时,明确指标状态、流程,避免数据在同步过程中变为2份数据。一般也采用ETL离线同步的方式,结合全量表同步与增量表同步。

如何才能做到对告警通知有效管理?

其实在一线运维工作中,常常是福不双至,故障不单行。每有运维问题发生的时候,往往会密集发生多个告警。当这些告警来袭的时候,一线运维人员要针对它的类型、等级、告警对象和内容等进行检查并选用合适的方法来应对。

告警等级较高时,比如持续出错的应用告警,在查验后会立即分派通知相关的负责人在第一时间开具事件工单,做对应的流程追踪;而遇到低等级或次要的系统告警,则可以暂缓处置,留作观察。

传统的处置方式需要用经验来判断问题的影响范围和严重性,再通过人工进行派单以及通知下游处理人员,这样效率低下,无法满足现今业务响应速度的要求了。

究其原因,有些周期性发生的高频问题,往往并不是最棘手的,是可以延后处置的。反而偶发的问题,比较需要特别关注(如果这是原始定级较高的故障,更应该第一时间关注)。

所以,在告警发生的时候,可以使用告警优先级推荐算法来分析处理问题。根据规律特征进行判别,看是否需要立即关注。再配合自动化工具,将推荐等级与原始等级都高的告警加上筛选规则,进行自动化开单处置。发现推荐等级与原始等级有背离的部分,可以筛选出来做复盘,对告警原始的等级进行优化,或者转化成升降级的规则逻辑来处置告警等级。

运维告警管理——告警的灵活分派

当下运维人员的一大头疼事,便是复杂而凌乱的告警,无法将告警信息进行灵活分类,通知给不同的人,这样就加大了 IT运维 人员对告警信息的判断难度,进而无法快速的的定位到根因,也就无法快速的解决问题。

睿象云 智能告警 平台Cloud Alert(简称CA)快速接入各类事件,通过人工智能算法自动发现、诊断、修复IT系统运行事故,并能帮助企业形成最佳事件管理流程,让业务运行更加安全可靠;

灵活的分派策略:

在CA的分派策略当中,用户可以根据不同的应用,选定不同的筛选条件,将条件相结合,让指定的告警通知到特定的人;例如:在zabbix应用中,用户可以选择告警级别、告警内容、主机、服务、告警对象、hostgroups、applications等筛选条件,将告警条件相结合,使得告警通知到的人。用户也可以选择将告警通知到组、排班、钉钉、企业微信等协作通知方式;为了防止重要的告警遗漏,CA平台也推出了分派升级策略,当告警在用户指定的时间内未被认领或关闭时,会通知到第二负责人,同样的也可以设置第三、第四负责人,以此类推。

功能详情见视频: http://video.aiops.com/CA.assignment.mp4

更多功能欢迎登陆睿象云官网进行体验~ 关于告警趋势分析算法和什么是趋势预警的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 告警趋势分析算法的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于什么是趋势预警、告警趋势分析算法的信息别忘了在本站进行查找喔。
上一篇:三分钟学会安装Windows 11 带你超越80%用户
下一篇:孙翊威:解析疏通交通拥堵与IT运维优化
相关文章

 发表评论

暂时没有评论,来抢沙发吧~