实时警报通知:微信告警通知的重要性解析
700
2022-09-11
这样查看告警邮件要慢一点……
在你还没有用 OneAlert 的时候……
镜头三:现在的小张手下已经有100台服务器了,每台服务器还是100条进程。某天小张正在开会的时候,机房又停电了……收邮件的过程太过残酷,就不详述了。不过这次小张吸取了之前的教训,决定翻翻看里面有没有其他告警或者工作邮件。翻了几十封后,小张呵呵哒了,决定还是直接一页一页全都删了吧。其他的告警通知和重要的工作邮件也只好一块拜拜了。
小张很苦恼,发现自己绝大部分精力都耗费在了这些告警噪音上不说,好多正事儿还都被耽误了。但又不能因噎废食,完全把告警系统停用掉。小张该怎么办?
发现问题了吗?
监控工具自带的告警系统其实并不实用,它只会按照你之前设置好的规则机械性地持续发出告警,不会考虑告警信息的重复性、关联性,更不会考虑你当前是否方便查收邮件,是不是需要通知其他同事。一系列过多,重复,冗余的告警通知形成的告警风暴,不仅会使我们的运维人员产生告警疲劳,疲于应对成百上千封邮件,只想赶快把它们都删除掉。还会因此漏掉一些重要的告警,导致故障不能及时解决。日常工作也会受到影响。
如果你用了 OneAlert!
因为 OneAlert 会按照时间序列和关联关系对告警进行压缩,现在的小张会收到:100台服务器x100条进程x1次/分钟发出告警x N分钟x1分钟=100封邮件。
看到没,邮件量瞬间就少了99%!留下来的都是经过压缩合并后的告警信息,每一条都很重要,所以查看的时候一定要慢一点哦~
但是小张又有疑问了:每个故障你只通知我一次,感觉很不靠谱呀,万一我又刚好错过了那一次,岂不是完蛋了?!
没错,监控工具自带的告警系统通常只支持邮件通知,顶多再加个短信通知。但是 OneAlert 不同!邮件通知后没反应?没关系,两分钟后再通过微信推一次。还是没反应?网断了?没关系,两分钟后通过短信再推一次。还没反应?没关系,两分钟后再打电话通知一下。还是没反应?那你已经关机或是睡着了吧,这个时候恐怕再发100封邮件也叫不醒你了。。况且为了能在第一时间解决故障,我们也来不及等到你醒了再去处理了。赶紧推送给小李吧!四种方式挨个儿通知一遍,小李也睡了?接着推送给小王。如此升级,直到团队内有人响应为止。
通过多种方式的可靠通知以及告警信息的有序分发,及时响应故障的重担不再是完全压在一个人身上了,能够确保整个团队能在第一时间内采取应对措施。现在你还认为监控工具一封又一封没完没了的邮件是必要的吗?
发表评论
暂时没有评论,来抢沙发吧~