这样查看告警邮件要慢一点……

网友投稿 700 2022-09-11

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

这样查看告警邮件要慢一点……

在你还没有用 OneAlert 的时候……

镜头三:现在的小张手下已经有100台服务器了,每台服务器还是100条进程。某天小张正在开会的时候,机房又停电了……收邮件的过程太过残酷,就不详述了。不过这次小张吸取了之前的教训,决定翻翻看里面有没有其他告警或者工作邮件。翻了几十封后,小张呵呵哒了,决定还是直接一页一页全都删了吧。其他的告警通知和重要的工作邮件也只好一块拜拜了。

小张很苦恼,发现自己绝大部分精力都耗费在了这些告警噪音上不说,好多正事儿还都被耽误了。但又不能因噎废食,完全把告警系统停用掉。小张该怎么办?

发现问题了吗?

监控工具自带的告警系统其实并不实用,它只会按照你之前设置好的规则机械性地持续发出告警,不会考虑告警信息的重复性、关联性,更不会考虑你当前是否方便查收邮件,是不是需要通知其他同事。一系列过多,重复,冗余的告警通知形成的告警风暴,不仅会使我们的运维人员产生告警疲劳,疲于应对成百上千封邮件,只想赶快把它们都删除掉。还会因此漏掉一些重要的告警,导致故障不能及时解决。日常工作也会受到影响。

如果你用了 OneAlert!

因为 OneAlert 会按照时间序列和关联关系对告警进行压缩,现在的小张会收到:100台服务器x100条进程x1次/分钟发出告警x N分钟x1分钟=100封邮件。

看到没,邮件量瞬间就少了99%!留下来的都是经过压缩合并后的告警信息,每一条都很重要,所以查看的时候一定要慢一点哦~

但是小张又有疑问了:每个故障你只通知我一次,感觉很不靠谱呀,万一我又刚好错过了那一次,岂不是完蛋了?!

没错,监控工具自带的告警系统通常只支持邮件通知,顶多再加个短信通知。但是 OneAlert 不同!邮件通知后没反应?没关系,两分钟后再通过微信推一次。还是没反应?网断了?没关系,两分钟后通过短信再推一次。还没反应?没关系,两分钟后再打电话通知一下。还是没反应?那你已经关机或是睡着了吧,这个时候恐怕再发100封邮件也叫不醒你了。。况且为了能在第一时间解决故障,我们也来不及等到你醒了再去处理了。赶紧推送给小李吧!四种方式挨个儿通知一遍,小李也睡了?接着推送给小王。如此升级,直到团队内有人响应为止。

通过多种方式的可靠通知以及告警信息的有序分发,及时响应故障的重担不再是完全压在一个人身上了,能够确保整个团队能在第一时间内采取应对措施。现在你还认为监控工具一封又一封没完没了的邮件是必要的吗?

上一篇:6大原因导致「最安全的程序」也会出现隐患!(所有的安全操作隐患都是可以控制的)
下一篇:Android 共享文件的 Runtime 权限(android是什么手机牌子)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~