如何让运维指标变得更有价值？（运营需要关注的指标）-睿象云平台

如何让运维指标变得更有价值？（运营需要关注的指标）

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

如何让运维指标变得更有价值？（运营需要关注的指标）

以 MTTA 为指导原则

MTTA 是衡量响应一个告警事件的关键性指标。为了掌握你的告警事件响应时间，在你已经开始处理告警时，强烈建议及时响应（认领），例如通过移动端、微信、页面、移动 APP 等方式及时认领。特别是如果有多人运维、并且设置了升级处理的策略，该实践会非常有用，你可以知道现在是谁在处理，处理进展怎样，你就不用担心告警没通知到位或者是没有处理了。

大多数优秀的运维团队，往往会将 MTTA 作为最关键的指标之一，因为这是可控和可操作的。有故障时，我们很难控制最终的恢复时间，毕竟涉及问题较多；但是至少可以保证响应及时率。优秀的运维告警平台很容易就能够能够跟踪整个团队的 MTTA ，包括现状、历史趋势，团队是否可以达到响应标准。

可能有同学会质疑，因为大家经常是第一时间就开始处理告警，往往忽略掉响应（认领），平时如果多个人协作同学坐一起，会吼一句「放着我来！」就能搞定，需要这么复杂么。

没有数据记录，就没有优化基础。比如如果人员不集中的话，或者是事情多了，就容易沟通不畅或遗漏，使用工具能够避免该问题。

解决问题需要记录

谨慎使用超时时间

不少监控工具都具备自动升级规则，一般会支持告警自动关闭，即如果长时间没有关闭／恢复告警，告警系统会自动关闭掉，该参数会影响到最终的 MTTR 。

抖动告警（flapping alert）

抖动告警（flapping alert）是指告警触发后，即刻恢复，之后又触发并恢复，反复多次。抖动告警的原因大多是监控指标在阈值范围附近频繁抖动。抖动告警会引发 MTTA 和 MTTR 数据异常，通常表现为大量的告警数量，但是很小的 MTTA 和 MTTR 值，甚至没有 MTTA。因为告警还没有来得及响应（认领）就已经被自动关闭了。

小结