如何让运维指标变得更有价值?(运营需要关注的指标)

网友投稿 704 2022-09-01

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

如何让运维指标变得更有价值?(运营需要关注的指标)

以 MTTA 为指导原则

MTTA 是衡量响应一个告警事件的关键性指标。为了掌握你的告警事件响应时间,在你已经开始处理告警时,强烈建议及时响应(认领),例如通过移动端、微信、页面、移动 APP 等方式及时认领。特别是如果有多人运维、并且设置了升级处理的策略,该实践会非常有用,你可以知道现在是谁在处理,处理进展怎样,你就不用担心告警没通知到位或者是没有处理了。

大多数优秀的运维团队,往往会将 MTTA 作为最关键的指标之一,因为这是可控和可操作的。有故障时,我们很难控制最终的恢复时间,毕竟涉及问题较多;但是至少可以保证响应及时率。优秀的运维告警平台很容易就能够能够跟踪整个团队的 MTTA ,包括现状、历史趋势,团队是否可以达到响应标准。

可能有同学会质疑,因为大家经常是第一时间就开始处理告警,往往忽略掉响应(认领),平时如果多个人协作同学坐一起,会吼一句「放着我来!」就能搞定,需要这么复杂么。

没有数据记录,就没有优化基础。比如如果人员不集中的话,或者是事情多了,就容易沟通不畅或遗漏,使用工具能够避免该问题。

解决问题需要记录

谨慎使用超时时间

不少监控工具都具备自动升级规则,一般会支持告警自动关闭,即如果长时间没有关闭/恢复告警,告警系统会自动关闭掉,该参数会影响到最终的 MTTR 。

抖动告警(flapping alert)

抖动告警(flapping alert)是指告警触发后,即刻恢复,之后又触发并恢复,反复多次。抖动告警的原因大多是监控指标在阈值范围附近频繁抖动。抖动告警会引发 MTTA 和 MTTR 数据异常,通常表现为大量的告警数量,但是很小的 MTTA 和 MTTR 值,甚至没有 MTTA。因为告警还没有来得及响应(认领)就已经被自动关闭了。

小结

上一篇:Java 应用发布后,需要关注的7个性能指标(java dataoutputstream乱码)
下一篇:日均百万 PV 的站点如何做性能监测?试试「3M口罩」!(日均600万)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~