跳转至

告警处理流程

智能告警平台 CA 能够接收国内外主流监控工具产生的告警,未直接集成的告警,如果按照 CA平台提供的 REST API 格式推送告警信息,CA平台也能全量接收。


告警状态

  • 待认领/发生:监控工具检测到问题时,会推送事件信息到 CA平台,在 CA平台触发新告警,然后根据分派策略,分派给告警相关待处理人,然后按照通知策略通知被分派人,每个人的通知方式可以自定义。事件信息推送到 CA平台后,如果当前事件 eventId 与系统中未关闭的告警有相同 eventId,则当前事件不触发新告警,仅在原未关闭告警更新发生频率;如果无相同 eventId,则在 CA平台新触发一个告警,进行分派通知。

  • 已认领:认领可以确认问题的所有权,用户进行认领操作后,会停止分派升级过程

  • 已关闭/已恢复:问题修复了。

告警关闭三种方式:

  1. 在界面手动关闭;

  2. 通过监控工具推送的恢复信息自动关闭告警;

  3. 在 CA平台设置自动关闭时间,超时自动关闭。


告警处理流程

  1. 通过集成接收告警

    提示

    CA平台会根据 eventId 自动去重相同事件,如果有相同 eventId,则事件不会触发新的告警,反之,触发新的告警。

  2. 通过分派策略分派告警给人

    新触发的告警,会通过分派策略,分派给成员/组/排班/钉钉讨论组。分派策略可以根据告警内容、告警级别进行分派;也可以在分派策略中设置认领超时升级分派策略,如一线支持组,10分钟无人认领告警,就自动升级分派给二线支持组,可以设置多级升级机制,系统推荐不多于9个升级。

  3. 通过电话、短信、微信、邮件、APP、钉钉通知告警

    分派给用户的告警,用户可以通过多种方式接收通知。用户可以在通知策略中自定义设置通知策略:

    • 支持分别设置告警状态:发生时、认领时、关闭时;

    • 告警发生时间:任何时间、工作时间、非工作时间;

    • 告警级别:严重、警告、提醒;

    • 延迟策略:立刻通知、5分钟后通知、10分钟后通知……;

    • 通知方式:电话、短信、微信、邮件、APP。

    提示

    user仅能设置自己的通知策略,admin可以设置所有人的通知策略。

    1. 告警认领和关闭

    用户收到告警发生的通知时,用户可以根据情况是否认领(或关闭)告警。关闭时可以填写解决方案。认领和关闭告警的操作支持多种方式:

    • web界面,在告警详情界面,点击认领/关闭按钮即可;

    • 微信端,点击告警详情,点击认领/关闭按钮即可;

    • APP端,在告警列表页,点击认领/关闭按钮即可;

    • 钉钉客户端,点击告警机器人推送的告警信息,选择认领人/关闭人,点击确认按钮即可。

    提示

    在钉钉客户端,认领人/关闭人仅能在已分派人中选择,其他客户端如果未分派人点击了认领/关闭按钮,默认将操作人加入到分派人中。