如何做到智能告警的管理?
告警,往往是繁杂而密集的,如果没有一个高效的管理告警的办法,那只会大大降低运维人员的工作效率,导致问题处理不及时,最终影响到业务。那么,如何做到告警的智能高效管理呢?
睿象云智能告警平台Cloud Alert(以下简称CA)是睿象云旗下产品,从时间、人员、信息、过程、知识、问题6个维度,实现对告警的管理。
时间:将告警第一时间通知到相关人员,保证告警无延迟,尽可能的缩短告警处理的时间流程
人员:实现团队的成员的管理,保证告警的精准通知
信息:将告警信息标准化,统一化管理
过程:告警从发生到恢复,形成一套完整的可视化处理流程
知识:告警处理的具体详情积累,形成告警知识图谱,方便快速处理告警问题
问题:解决类似告警风暴等类似问题
CA告警管理流程
告警的主要处理流程首先将用户的多个监控平台接入到CA中,然后在CA中进行管理,最终通知到用户、系统或者第三方协作策略中,CA中管理可以实现【开放式一体化管理】【自动化事件分派响应机制】【自研机器学习算法直达事件根因】【多渠道通知必答移动端快速处理】
CA告警数据处理流程
监控平台的数据发送到CA中,将告警数据标准化处理,通过设定的压缩规则(可选),将告警压缩成主告警后,进行通知
CA所能带来的是什么呢?
场景一:实现告警的分级的不同方式的通知,例如:严重告警电话通知,其他告警实现微信通知
设置接收告警人员的通知方式,严重级别告警设置电话通知,提醒和警告级别告警设置微信通知
场景二:实现将多个平台告警统一化管理
CA支持将多个监控平台接入到一个admin的账号进行集中管理
场景三:在告警未能及时处理时,再次通知到下一负责人或者同一人,防止重要告警未能及时处理导致的遗漏
在CA中的分派策略中设置分派升级策略,可以选择指定时间内,告警未被处理,升级到下一人通知,升级几次可以根据用户的需求来设置
场景四:将告警发送到钉钉或企业微信等群组中,通过团队协作的方式快速处理问题
CA可以设置协作通知,将告警发送到钉钉或者企业微信等第三方协作工具中,并可以进行认领或关闭等操作。
场景五:针对告警的分析,以及成员对告警的处理情况的分析
CA支持告警回溯与多维分析,可以查看历史告警趋势、成员工作效率、告警内容top分析、告警智能分类分析等。