如何有效预防宕机?你需要掌握这4个方法(如何有效预防宕机?你需要掌握这4个方法有哪些)

网友投稿 607 2022-09-12

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

如何有效预防宕机?你需要掌握这4个方法(如何有效预防宕机?你需要掌握这4个方法有哪些)

随着应用架构的不断演进,IT 系统也变得越来越复杂,这样就容易产生各类宕机事件。就在今年,国内外就出现了多起宕机事故。

2015年1月27日,网友发现无法登陆 Facebook,页面显示「对不起,出故障了,目前正在抢修,会尽快修复」。2015年3月11日,包括 App Store、iTunes Store、Mac App Store 以及 iBooks Store 在内的一系列苹果在线商店服务,遭遇大面积服务中断。据统计事故恢复时间长达11个小时。2015年5月,陌陌、网易、支付宝、携程网、艺龙网、招商证券、同花顺、齐鲁证券接连发生故障......

宕机事件会引发:

预防宕机事件的 4 个方法

降低事件和告警数量

相信不少同学有过被大量的告警邮件、短信撑爆邮箱的经历。更有甚者,专门采购一台手机来接收各种监控短信,但大量无效的干扰事件、告警短信蒙蔽了运维同学的双眼,而这样会导致一个后果,就是一些重要故障可能会被忽略掉了。因此识别和确定重要故障尤为重要,而且大量的告警信息也是不合适的。所以,我们需要持续地降低事件和告警数量,但随着 IT 系统的不断升级变更,配套的监控就会调整,此时告警数量又会增加,所以我们要进行持续的调整。

降低故障恢复时间

降低故障响应时间

如果我们的系统发生故障,第一时间能够发现问题当然是最好的,然而如果没有成熟的管理体系,故障的发现时间会延迟很久。例如:凌晨1点发生故障,早上7点起来看手机才知道故障,就算再快处理,也是好几个小时之后的事情了。所以建立快速响应机制是非常有必要的,最理想的方式就是响应时间能够迅速下降。在这一点上,OneAlert 提供了微信和电话的报警功能,能让用户第一时间得到报警通知,可以最快响应故障问题的处理。

升级策略

当事件发生后,如果在规定时间内没有处理,而事件可能会无限期的拖延或者是遗漏,如果建立有效的升级策略和高效的管理组织,就能够避免类似问题发生。现在,OneAlert 还提供了事件升级机制,如果一线值班人员拖延或者遗漏,则会升级到二线,以此类推,从而有效地防止故障问题疏漏。

我们相信,如果能够有效利用上面4个数据指标,以数据驱动,并进行持续的改进和优化。就可以有效的降低故障恢复时间,而且有序的事件处理过程,也能够让我们的团队成员保持良好精神和战斗力。

上一篇:围绕着内存数据库的4个流言(围绕着内存数据库的4个流言称为什么)
下一篇:Appboy 基于 MongoDB 的数据密集型实践(app播音员怎么读)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~