跳转至

平台宕机报警

Cloud Insight 使用指标 ci.agent.up 来预测平台(主机)的宕机情况。设置平台报警之前,先来了解一下 Cloud Insight 平台宕机报警的实现原理。


平台宕机报警原理

每一个 Cloud Insight Agent 安装至主机时,都会默认传输 ci.agent.up 这个心跳值至 Cloud Insight 后端。

  • ci.agent.up 值为空,Cloud Insight 会预测该主机已宕机;
  • 若该值不为空,会认识该主机处于开启状态。

当然该值是否为空还与网络、后端处理速度相关,所以 Cloud Insight 平台宕机报警只提供一定的预测功能,不能确保该值为空时一定为主机已经处于宕机状态。也有可能为以下情况:

  • 网络延迟导致后端未在指定时间范围内收到该心跳值;
  • 后端处理速度问题导致后端未在指定时间范围内处理该心跳值;
  • 主机中 Cloudinsigt Agent 处于停止状态,但是主机运行正常也会导致该值为空。

若该值在 3 天一直处于为空的状态,Cloud Insight 后端会删除该平台的相关信息,也就是说我们认为您不再需要监控该主机。


设置平台报警策略

设置报警策略的入口为:

  1. 查看左侧导航的报警策略,点击“添加报警策略”;
  2. 选择”平台报警”,进入编辑页面。

1.选择平台

默认选中所有平台进行报警监测,您也可以选择平台来指定只针对某一些平台进行监测。

2.选择报警条件

再此,需要设置多久没有收到 ci.agent.up 心跳值,进行报警。我们建议选择 5 分钟,若有特殊需求,请按照自己需求选择时间范围。

最大支持 4 小时的时间范围。

平台报警策略默认为“非聚合报警”,也就是说只要有一台平台的心跳值为空,Cloud Insight 就会发送报警触发的邮件。

3.命名报警

给该报警策略设置一个名词,来方便团队成员了解发生了什么故障。

4.通知用户

选择该策略在触发和关闭时,通知哪些团队成员。


默认平台报警策略

每个使用 Cloud Insight 的团队都会设置一个默认的平台宕机报警策略。主要您的主机安装了 Cloud Insight Agent,若该主机的心跳值在 5 分钟内为空,我们就会给您发送邮件。

若不想使用该报警策略,或不想收到相关邮件,对该策略进行禁用即可。该策略无法删除和编辑。


5分钟,开启你的跨云监控之旅 (`⌄´ )