睿象云智能告警平台的分派策略
704
2022-09-01
如何让运维指标变得更有价值?(运营需要关注的指标)
以 MTTA 为指导原则
MTTA 是衡量响应一个告警事件的关键性指标。为了掌握你的告警事件响应时间,在你已经开始处理告警时,强烈建议及时响应(认领),例如通过移动端、微信、页面、移动 APP 等方式及时认领。特别是如果有多人运维、并且设置了升级处理的策略,该实践会非常有用,你可以知道现在是谁在处理,处理进展怎样,你就不用担心告警没通知到位或者是没有处理了。
大多数优秀的运维团队,往往会将 MTTA 作为最关键的指标之一,因为这是可控和可操作的。有故障时,我们很难控制最终的恢复时间,毕竟涉及问题较多;但是至少可以保证响应及时率。优秀的运维告警平台很容易就能够能够跟踪整个团队的 MTTA ,包括现状、历史趋势,团队是否可以达到响应标准。
可能有同学会质疑,因为大家经常是第一时间就开始处理告警,往往忽略掉响应(认领),平时如果多个人协作同学坐一起,会吼一句「放着我来!」就能搞定,需要这么复杂么。
没有数据记录,就没有优化基础。比如如果人员不集中的话,或者是事情多了,就容易沟通不畅或遗漏,使用工具能够避免该问题。
解决问题需要记录
谨慎使用超时时间
不少监控工具都具备自动升级规则,一般会支持告警自动关闭,即如果长时间没有关闭/恢复告警,告警系统会自动关闭掉,该参数会影响到最终的 MTTR 。
抖动告警(flapping alert)
抖动告警(flapping alert)是指告警触发后,即刻恢复,之后又触发并恢复,反复多次。抖动告警的原因大多是监控指标在阈值范围附近频繁抖动。抖动告警会引发 MTTA 和 MTTR 数据异常,通常表现为大量的告警数量,但是很小的 MTTA 和 MTTR 值,甚至没有 MTTA。因为告警还没有来得及响应(认领)就已经被自动关闭了。
小结
发表评论
暂时没有评论,来抢沙发吧~