Dataphant & 摩拜单车 携手打造智能告警最佳实践

导语:AIOps 如何落地一直是当下最热门的IT运维管理话题。指标和告警管理是 AIOps 落地的两个切入点。看智能出行领域独角兽摩拜单车如何运用 CA 智能告警平台从万千告警中获得更多运维洞察。

摩拜单车,自 2015 年 1 月成立以来,用户呈爆发性增长,对运维带来相当大的挑战!

挑战一:监控容易做,告警很难报

Zabbix 和 Prometheus 作为摩拜单车 IT 系统日常运维监控工具,每天至少产生1500条以上的告警。怎样从成千上万条信息中发现有用的,过滤掉重复的、抖动性的信息,或者从中找出问题根源,从来都不是一件容易的事情,所以业界流传着“监控容易做,告警很难报”的说法。

睿象云 CA 这样解决:

智能告警平台 CA 帮助摩拜单车建立起有效的统一告警管理平台,将多个监控系统的告警,汇聚到一个平台中统一进行管理,同时使用 NLP、词向量、聚类、信息熵等人工智能算法和技术实现告警的降噪、聚类,将每日告警量减少到 60-100,让业务线更加聚焦于业务!同时将故障恢复时间从过去的平均4小时缩短到1.5个小时。

挑战二:告警时效性低,送达实际处理人平均需20分钟

在早期的开发运维模式下,摩拜单车告警由各业务线人员进行处理。告警的处理方式是监控系统产生告警,邮件通知给运维人员,运维人员再手动给各业务线负责人打电话,说明详细情况后安排人员处理。告警分发和处理人员超过40人。告警信息送达处理人员平均需要20分钟。

睿象云 CA 这样解决:

智能告警平台 CA 采用了有序分派的解决方案:首先是统一分派和升级机制,运维人员可根据业务线不同,将告警直接分派给业务线人员,无需人工中转告警,并设置多级升级机制,防止告警长时间无人响应;然后采用多方式通知,除了邮件和微信通知以外,还采用了短信通知和重要告警短信电话通知的方式,不遗漏任何一条告警信息,保障告警可达率98%,将告警送达时间缩短到1-2分钟。