告警信息处理过程说明(告警通知)

来源网友投稿 482 2023-03-22

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈告警信息处理过程说明,以及告警通知对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享告警信息处理过程说明的知识,其中也会对告警通知进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

8个ARP的告警信息如何快速处理?老网工必会,新网工必学

学网络,就在IE-LAB

国内高端网络工程师培养基地


现网排错之8个ARP的告警信息如何快速处理?马上来学习吧!


01

ARP_1.3.6.1.4.1.2011.5.25.123.2.1hwEthernetARPSpeedLimitAlarm


1) 告警解释

ARP/4/ARP_SUPP_TRAP:OID [OID] Exceed the speed limit value configured. (Ifnet index=[INTEGER], Configured value=[COUNTER], Sampling value=[COUNTER], Speed-limit type=[OCTET], Source Ip address=[IPADDR], Destination Ip address=[IPADDR], VPN-Instance name=[OCTET]).

ARP报文或ARP Miss消息的发送速率超出限制时,系统会产生此告警。可以通过arp speed-limit source-ip命令设置速率上限,其中系统默认速率上限为500。

2) 报警原因

原因1:

配置对潜在的攻击行为写日志和发送告警时间间隔为N,在第N+1秒时间内上送ARP报文数配置的阈值并且前N秒上送ARP报文平均数配置的阈值。

原因2:

配置对潜在的攻击行为写日志和发送告警时间间隔为N,在第N+1秒时间内上送ARP Miss数配置的阈值并且前N秒上送ARP Miss平均数配置的阈值。

3) 处理步骤

1. 查看告警信息中时间戳抑制类型。

o ARP=2。

o ARP Miss=4。

2. 执行命令display arp anti-attack configuration查看ARP速率限制值。

3. 执行命令arp speed-limit source-ip [ ip-address ] maximum maximum,重新设定ARP时间戳抑制的最大值,该值必须大于第2步查看到的值,否则无法解除告警,但最大不能超过16384。查看告警是否恢复。

4. 请收集告警信息和配置信息,并联系技术支持人员。

5. 结束。

02

ARP_1.3.6.1.4.1.2011.5.25.123.2.4hwEthernetARPThresholdExceedAlarm


1) 告警解释

ARP/4/ARP_THRESHOLDEXCEED_TRAP:OID [OID] The number of ARP entries exceeded the threshold. (entPhysicalIndex=[INTEGER], Slot name=[OCTET], Threshold=[COUNTER], Number of dynamic ARP entries=[COUNTER], Number of static ARP entries=[COUNTER]).

ARP表项数量超过阈值时,设备产生告警。

2) 报警原因

设备上学习到的ARP表项数量超过了设定的阈值。

3) 处理步骤

1. 执行display arp statistics命令查看设备上ARP表项统计信息,根据网络规划和业务部署,确定是静态ARP表项还是动态ARP表项数量较多。

o 动态ARP表项数量较多=2。

o 静态ARP表项数量较多=3。

2. 执行display arp命令确定哪些接口的ARP表项数量较多,对于ARP表项数量较多的接口,执行display arp interface命令查看指定接口下的ARP表项,检查这些ARP表项是否是用户需要的。

o ARP表项是用户需要的=5。

o 如果ARP表项不是用户需要的,在确保业务不受影响的前提下,可以执行reset arp命令手动清除部分ARP表项=4。

3. 执行display current-configuration命令,检查配置的静态ARP表项是否是用户需要的。

o 静态ARP表项是用户需要的=5。

o 静态ARP表项不是用户需要的,在确保业务不受影响的前提下,可以执行undo arp static命令,通过指定参数删除指定的静态ARP表项或者执行reset arp static命令手动清除全部静态ARP表项=4。

4. 执行display arp statistics命令观察设备的ARP表项总数是否还会异常增加。

o ARP表项不会持续增加=6。

o ARP表项还会持续增加=5。

5. 请收集告警信息和配置信息,并联系技术支持人员。

6. 结束。

03

ARP_1.3.6.1.4.1.2011.5.25.123.2.5hwEthernetARPThresholdResumeAlarm

1) 告警解释

ARP/4/ARP_THRESHOLDRESUME_TRAP:OID [OID] The number of ARP entries was restored to the threshold. (entPhysicalIndex=[INTEGER], Slot name=[OCTET], Threshold=[COUNTER], Number of dynamic ARP entries=[COUNTER], Number of static ARP entries=[COUNTER]).

ARP表项的数量由超阈值减少到阈值范围内时,上报清除告警。

2) 报警原因

设备上ARP表项的数量由超阈值减少到阈值范围内。

3) 处理步骤

1. 正常运行信息,无需处理。

04

1) 告警解释

ARP/4/ARP_IPCONFLICT_TRAP:OID [OID] ARP detects IP conflict. (IP address=[IPADDR], Local interface=[OCTET], Local MAC=[OCTET], Local vlan=[INTEGER], Local CE vlan=[INTEGER], Receive interface=[OCTET], Receive MAC=[OCTET], Receive vlan=[INTEGER], Receive CE vlan=[INTEGER], IP conflict type=[OCTET]).

ARP检测到以太网络中存在IP地址冲突。

2) 可能原因

· 原因1:ARP报文中的源IP地址与本设备的接口IP地址相同,但是MAC地址不相同。

· 原因2:ARP报文中的源IP地址和本设备上已经存在的ARP表项的IP地址相同,但是源MAC地址和对应的ARP表项的MAC地址不相同。

· 原因3:ARP报文中的源IP地址为0.0.0.0(probe ARP报文),目的IP地址与本设备的接口IP地址相同,但是MAC地址不相同。

3) 处理步骤

1. 根据告警信息,确定冲突的设备或者用户。

o 如果能确定冲突的设备或者用户,请及时修改相关的IP地址,及时消除冲突配置=2。

o 如果不能确定冲突的设备或者用户,请收集告警信息和配置信息,并联系技术支持人员。

2. 结束。

05

ARP_1.3.6.1.4.1.2011.5.25.123.2.9hwEthernetARPLearnStopAlarm

1) 告警解释

ARP/4/ARP_LEARNSTOP_TRAP:OID [OID] ARP learning stopped because the memory usage reached the threshold. (Slot index=[INTEGER], Threshold=[COUNTER]).

设备单板内存的占用率达到指定的阈值(单板内存重启阈值-1。例如,1G内存单板的内存重启阈值是90%,当单板内存占用率达到89%时,产生该告警;2G内存单板的内存重启阈值是95%,当单板内存占用率达到94%时,产生该告警)时,ARP停止学习。

2) 可能原因

当前设备上指定单板的内存占用率达到重启阈值-1,ARP停止学习。

3) 处理步骤

1. 执行display health命令查看单板内存的占用率情况。

2. 请收集告警信息和配置信息,并联系技术支持人员。

06

ARP_1.3.6.1.4.1.2011.5.25.123.2.10hwEthernetARPLearnResumeAlarm

1) 告警解释

ARP/4/ARP_LEARNRESUME_TRAP:OID [OID] ARP learning recovered because the memory usage fell below the threshold. (Slot index=[INTEGER], Threshold=[COUNTER]).

设备单板内存的占用率恢复到指定的阈值(单板内存重启阈值-1。例如,1G内存单板的内存重启阈值是90%,当单板内存占用率达到89%时,产生该告警;2G内存单板的内存重启阈值是95%,当单板内存占用率达到94%时,产生该告警)以下时,ARP重新开始学习。

2) 可能原因

当前设备上指定单板的内存占用率由达到单板内存重启阈值-1恢复到单板内存重启阈值-1以下时,ARP重新开始学习。

3) 处理步骤

1. 正常运行信息,无需处理。

07

ARP_1.3.6.1.4.1.2011.5.25.123.2.11hwEthernetARPRemoteBackupFailAlarm

1) 告警解释

ARP/4/ARP_NO_ACCORD_TRAP: OID [OID] The remote ARP entry backup fail. (Mainif name=[OCTET]).

ARP表项远端备份失败。

2) 可能原因

备端设备检测到处理ARP远端备份报文失败,比如:备份报文进入队列失败。

3) 处理步骤

1. 执行display message-queue命令查看设备的消息队列的使用情况,检查ARP消息队列是否已满。

o ARP消息队列已满=3。

o ARP消息队列没有满=2。

2. 执行display arp命令查看设备上ARP表项的信息,检查主端和备端设备上的ARP表项是否一致。

o 两端ARP表项一致=4。

o 两端ARP表项不一致,请在确保业务不受影响的前提下,在主端设备上执行batch-backup service-type arp now命令手动再备份一次ARP表项。

3. 请收集告警信息和配置信息,并联系技术支持人员。

4. 结束。

08

ARP_1.3.6.1.4.1.2011.5.25.123.2.12hwEthernetARPRemoteBackupFailResumeAlarm

1) 告警解释

ARP/4/ARP_NO_ACCORD_RESUME_TRAP: OID [OID] The remote ARP entry backup succeed. (Mainif name=[OCTET]).

ARP表项远端备份失败恢复。

2) 可能原因

备端设备检测到周期内备份ARP表项成功。

3) 处理步骤

1. 正常运行消息,无需处理。

*本文版权所有 华为技术有限公司 侵删

【思科CCNA华为HCIA初级混讲班】本课程满足在校及零基础入门想要学习网络的同学,将两大厂商初级认证需要掌握的理论及实验打包一起学习,轻松区分技术应用中的异同……

2022年希望你成为网络工程师行业的又一位技术大牛,不再羡慕别人的薪资和工作,闯出属于自己的一片天地。

火警处理步骤是什么报警操作流程有哪些

拨打“119”火警电话 与公安消防队出警灭火都是免费的。发生火警的时候我们一定不能着急,也不要慌张,最主要的就是自救。下面是我整理的火警处理步骤,欢迎阅读。
火警处理步骤
第一节、火警处理流程

1、自动报警系统显示火警信号或接到火情 报告 后,应按下“消音”键,确认火灾信号部位;

2、消控室值班员主管应立即派一值班员或通知消防巡查员前往火警现场观察;

3、火情确认后,应立即报告值班室主管,由值班主管抽向主管领通报;

4、值班主管确认火灾后应立即拨打119火警电话向消防部门报警;

5、接通相关部位的消防应急广播系统,通知火灾及相关区域人员疏散。

6、根据火灾发生的位置及状态启动相应的联动设备,如消防栓系统、喷淋系统、防排烟系统等消防设施。

7、主管值班员应留在控制监视系统运行,并做好火警记录。

第二节、火警误报处理步骤

1、火灾报警控制器显示火警信号或接到火情报告后,应首 先在系统报警图形中核实所对应的位置;

2、消控室值班员主管应立即派一值班员或通知消防巡查员 持通讯工具和灭火器前往报警现场观察情况,主管值班员 留在控制室随时准备实施系统操作;

3、值班员或通知消防巡查员在现场核实火警时为误报时, 应及时通知消防控制室;

4、主值班员接到误报通知后应将系统恢复到正常工作状态;

5、在值班记录中对误报时间、部位、原因及处理 方法 进行详细记录;

6、消防值班员应及时将系统误报的原因、处理情况向上级领导汇报。

第三节、火灾报警处理程序

1、消音;

2、接到报警后应立即携带对讲机,消防电话等通讯工具, 迅速到达报警点确认;

3、如未发生火情,应查明原因,采取相应处理 措施 ,并认 真做好记录;

4、如确实发生了火灾,应立即用通讯工具向消控室主管值 班员报告,并立即用现场灭火器灭火;

5、消防控制室值班人员应根据火情启动相关消防设备,通 知相关人员,报告领导,拨打119报警;

6、处理完毕,恢复系统到正常运行状态。

第四节、 其它 情况处理方法

一、值班员到现场确认火警与消防控制室失去联系统处理程 序

1、如果同一探测区域内另外探测器继续报警,应按火灾确 认程序处理;

2、通知有关人员并报告值班领导处置。

二、不同探测区域同时报警应如何处置

1、若应急方案有规定的按应急方案处理;

2、优先处理重点防火区域的报警,然后再处理另外区域报 警。

三、同一区域多个探测器相继报警处理办法

1、立即通知相关人员到现场确认;

2、按火警确认程序处理。

第五节、系统检查

一、日检

1、系统运行日检内容:设备运行正常还是有故障,分析报 警性质是火警、误报、故障报警,是否有漏报、报警原 因和处理方法并作好记录。

2、控制器运行日检内容:自检、消音、复位、故障报警、 巡检、主备电等是否正常。
火警紧急处理方案
1、初期火警扑救无效,火势无法控制并进一步蔓延时,在场当值负责人应该第一时间向中心领导汇报;第一时间向消防局报警。讲清楚市场地点、起火楼层、火势、起火材料等。

2、关闭防火分区的防火门或卷闸;安排人员携带灭火工具检查相邻房间和上下楼层通道是否有火势蔓延;检查电梯有无困人。

3、灭火行动组以最快速度到达现场,组织灭火,针对燃烧性质不同采取相应的灭火方法,防止火灾蔓延。

4、救护疏散组指挥人员疏散,疏散顺序先从着火层以上各层开始,安抚暂不需要疏散楼层的人员;指导着火房()间或楼层人员安全疏散,随后查漏;引导人员从消防通道疏散到首层,无法从消防通道疏散到首层时,引导用户疏散到天台上风处等待营救,并组织水枪掩护。

5、交通指挥组消除路障,指挥无关车辆离开现场,维持市场外围秩序;禁止无关人员进入市场,指挥疏散人员离开市场;引导消防局消防员到火灾现场。
火警报警操作流程
消防控制室值班人员在接到火警显示后,应保持镇定,不得慌乱,并按照相应的处理程序经行工作。

1接到控制设备报警显示后,应首先在系统点位置平面图中何时报警点所对应的部位。

2由手动变为自动,消防控制室一名值班人员或通知保安人员迅速赶到报警部位核实情况,自动消防系统操作人员在控制室内随时准备实施系统操作。

3现场核实报警部位确实起火后,应立即通知消防控制室,并立即拨打119,向公安消防机构报警,说明发生火灾的单位名称,座落地点,起火部位,联系电话等基本情况。

4发生火灾后及时通知上级领导。

5报警后,消防控制室一名值班人员应利用火灾事故广播系统通知有关部门和有关人员组织疏散和自救工作。

6消防控制室的自动消防系统操作人员要监视系统的运行状态,保证火灾情况下建筑自动消防设施的自动运行。

操作流程

1按自动键显示输入密码,密码为00000。

2然后看指示灯查看是否在自动指示灯上。

3确认后FT8304总线置手动控制盘所相对区域(如排烟口 按下排风口键然后按下卷帘门键。超过80度自动喷淋系统启动)

4拿起红色报警电话显示输入几级密码(如 2级,输入2222。) 5按下确认键,输入号码119后按下拨号键,最后按下通话键,接通后说明发生火灾的单位名称,座落地点,起火部位,联系电话等基本情况。

IT运维如何处理大量告警

一、在运维的过程中,需要记住一个原则告警信息处理过程说明:如果报警发给告警信息处理过程说明了 一个不能短期内解决问题 的人。 那么应该反思这个报警是否有合理的必要。

二、告警信息,需要定制分发,制定告警策略,重点需要关注以下几个方面原则。

哪些业务需要告警?

哪种故障需要告警?

告警等级如何划分?

故障依赖关系如何定义?

告警信息如何汇集?

如何做到精准有效的告警?

最终的目的就是少收告警信息,自动处理故障,自动恢复服务,当然,这是一条漫长的路。

如果不解决以上问题,将会被告警信息所淹没,最终如题主所言,影响运维工作。

对于监控的告警信息,处理的好,将会提高告警信息处理过程说明我们的故障响应速度,处理的不好,会影响告警信息处理过程说明我们的工作情绪,适得其反。试想,当一天收到1000封告警信息,是否还会去逐一查看监控告警信息?是否还能分辨是否重大故障,还是一般故障?

对于误报,漏报,会让人对信息的警觉性放松,时间久了,还会导致对接收监控信息有反感。所以,对于监控告警信息的发送,是一件特别慎重的事情。总结一下,对于监控告警信息,我们有以下的需求告警信息处理过程说明

1.基于业务类型,将告警信息发送给相应的业务用户,例如IDC人员,WEB运维,CDN运维,网络运维,不同的人员管理不同的设备,因此需要把故障发送给相关用户处理。

2.基于故障级别,对一个故障,将不同的故障级别发送给不同用户,例如5分钟内的故障发送给运维一线人员,10分钟发送给运维部门主管,30分钟发送给运维部门经理。重特大故障发送部门相关领导。

3.基于时间发送,比如业务维护期,告警无需发送。

4.故障的相关依赖关系,当A服务发生故障时,发送一般告警,当A,B服务故障时候,发送业务故障告警。

5.对出现故障的服务尝试用相关命令或者脚本进进行操作处理,尝试自动恢复,例如重启服务,重启服务器等。

RIIL 区别于一般的软件厂商,通过软件+服务+咨询+培训一站式交付模式,致力于提供匹配客户需求的解决方案,让客户能够真正把产品用起来,实实在在感受产品带来的价值

RIIL 区别于一般的软件厂商,依托锐捷强大平台,拥有遍布全国的销售、售前支持及售后保障网络,为客户提供便捷有力的本地化原厂服务

RIIL 在软件产品方面具备面向管理者、基于业务、可视化管理的特征,其中IT健康指数、业务雷达等创新管理功能拥有国家专利保护

RIIL 在全国具备大量的成功案例,南北车集团、中石油、清华大学、华南师范大学以及政府一半以上部委等等500多个优质行业客户都是RIIL的忠实用户

打架报案后派出所的处理流程

报警后告警信息处理过程说明,派出所立刻出警的,制止打架行为,然后将双方当事人带到派出所调查。如造成伤害,申请司法鉴定,由公安机关接警介入侦查后进行侦查处置。如涉嫌故意伤害者对犯罪嫌疑人进行刑事拘留或羁押,移送检察机关提起公诉。
法律分析
初步调查派出所接报警信息,应先进行调查,包括调查案件的发生、发展、结果、原因、手段、时间、地点,并做好询问记录,确定证据。这段时间一般是三个工作日左右。进一步调查告警信息处理过程说明:在此期间,将对证人和其告警信息处理过程说明他能够证明案件情况并了解案件事实的人进行调查,以进一步查明案件的所有事实。这段时间一般为8天。如果涉及伤害,可以识别伤害,这通常称为伤害识别。精神病鉴定时间不包括在办案时限内。审批时,办案人员应当根据案件情况和法律规定,提出处理意见,层层审批。处理并惩罚嫌疑犯。如果双方对处罚不满意,可以重新考虑。这是一个一般程序,也是更一般的程序。它通常在大约一个月内完成。派出所应结合本案情况,在处理本案时向双方发出处罚决定。不接受处罚决定是错误的。派出所办理行政拘留、行政罚款、行政警告等行政案件后,可以携带处罚决定书,将医院医疗收据带到法院,就双方的民事问题提起诉讼。对于因民事纠纷引起的轻微治安案件,派出所可以进行调整处理。派出所未能调整可能有其他原因,如另一方不愿意调整,或存在法律上不可调整的情况。可以到派出所询问案件的具体情况,然后到法院起诉,然后法院到派出所获取案件的相关证据并做出判决。

法律依据
《中华人民共和国治安管理处罚法》 第九十九条 公安机关办理治安案件的期限,自受理之日起不得超过三十日告警信息处理过程说明;案情重大、复杂的,经上一级公安机关批准,可以延长三十日。为了查明案情进行鉴定的期间,不计入办理治安案件的期限。

第五节 实现zabbix报警功能之页面信息报警和页面提示声音报警

1.1 页面提示信息报警和页面提示声音报警

配置-----主机-----点击相应主机的触发器-----创建创建触发器

配置触发器

查看页面报警提示信息

工作中处理页面报警信息的思路

工作中遇见告警信息处理思路步骤:
第一步: 看到告警提示信息,定位主机信息
第二步: 看到主机信息之后,定位报警原因 获得监控项Key值
第三步: 根据key值信息,最终获得报警原因

1.2 页面提示声音报警

用户-----用户设置------正在发送消息--- 勾选前端信息

故障恢复方法 告警

‍测试环境中出现了一个异常的告警现象:一条告警通过 Thanos Ruler 的 HTTP 接口观察到持续处于 active 状态,但是从 AlertManager 这边看这条告警为已解决状态。按照 DMP 平台的设计,告警已解决指的是告警上设置的结束时间已经过了当前时间。一条发送至 AlertManager 的告警为已解决状态有三种可能:1. 手动解决了告警2. 告警只产生了一次,第二次计算告警规则时会发送一个已解决的告警3. AlertManager 接收到的告警会带着一个自动解决时间,如果还没到达自动解决时间,则将该时间重置为 24h 后首先,因为了解到测试环境没有手动解决过异常告警,排除第一条;其次,由于该告警持续处于 active 状态,所以不会是因为告警只产生了一次而接收到已解决状态的告警,排除第二条;最后,告警的告警的产生时间与自动解决时间相差不是 24h,排除第三条。那问题出在什么地方呢?

分析

下面我们开始分析这个问题。综合第一节的描述,初步的猜想是告警在到达 AlertManager 前的某些阶段的处理过程太长,导致告警到达 AlertManager 后就已经过了自动解决时间。我们从分析平台里一条告警的流转过程入手,找出告警在哪个处理阶段耗时过长。首先,一条告警的产生需要两方面的配合:

metric 数据

告警规则

将 metric 数据输入到告警规则进行计算,如果符合条件则产生告警。DMP 平台集成了 Thanos 的相关组件,数据的提供和计算则会分开,数据还是由 Prometheus Server 提供,而告警规则的计算则交由 Thanos Rule(下文简称 Ruler)处理。下图是 Ruler 组件在集群中所处的位置:

看来,想要弄清楚现告警的产生到 AlertManager 之间的过程,需要先弄清除 Ruler 的大致机制。官方文档对 Ruler 的介绍是:You can think of Rule as a simplified Prometheus that does not require a sidecar and does not scrape and do PromQL evaluation (no QueryAPI)。

不难推测,Ruler 应该是在 Prometheus 上封装了一层,并提供一些额外的功能。通过翻阅资料大致了解,Ruler 使用 Prometheus 提供的库计算告警规则,并提供一些额外的功能。下面是 Ruler 中告警流转过程:

请点击输入图片描述

请点击输入图片描述

请点击输入图片描述

首先,图中每个告警规则 Rule 都有一个 active queue(下面简称本地队列),用来保存一个告警规则下的活跃告警。

其次,从本地队列中取出告警,发送至 AlertManager 前,会被放入 Thanos Rule Queue(下面简称缓冲队列),该缓冲队列有两个属性:

capacity(默认值为 10000):控制缓冲队列的大小,

maxBatchSize(默认值为 100):控制单次发送到 AlertManager 的最大告警数

了解了上述过程,再通过翻阅 Ruler 源码发现,一条告警在放入缓冲队列前,会为其设置一个默认的自动解决时间(当前时间 + 3m),这里是影响告警自动解决的开始时间,在这以后,有两个阶段可能影响告警的处理:1. 缓冲队列阶段2. 出缓冲队列到 AlertManager 阶段(网络延迟影响)由于测试环境是局域网环境,并且也没在环境上发现网络相关的问题,我们初步排除第二个阶段的影响,下面我们将注意力放在缓冲队列上。通过相关源码发现,告警在缓冲队列中的处理过程大致如下:如果本地队列中存在一条告警,其上次发送之间距离现在超过了 1m(默认值,可修改),则将该告警放入缓冲队列,并从缓冲队列中推送最多 maxBatchSize 个告警发送至 AlertManager。反之,如果所有本地队列中的告警,在最近 1m 内都有发送过,那么就不会推送缓冲队列中的告警。也就是说,如果在一段时间内,产生了大量重复的告警,缓冲队列的推送频率会下降。队列的生产方太多,消费方太少,该队列中的告警就会产生堆积的现象。因此我们不难猜测,问题原因很可能是是缓冲队列推送频率变低的情况下,单次推送的告警数量太少,导致缓冲队列堆积。下面我们通过两个方面验证上述猜想:首先通过日志可以得到队列在大约 20000s 内推送了大约 2000 次,即平均 10s 推送一次。结合缓冲队列的具体属性,一条存在于队列中的告警大约需要 (capacity/maxBatchSize)*10s = 16m,AlertManager 在接收到告警后早已超过了默认的自动解决时间(3m)。其次,Ruler 提供了 3 个 metric 的值来监控缓冲队列的运行情况:

thanos_alert_queue_alerts_dropped_total

thanos_alert_queue_alerts_pushed_total

thanos_alert_queue_alerts_popped_total

通过观察 thanos_alert_queue_alerts_dropped_total 的值,看到存在告警丢失的总数,也能佐证了缓冲队列在某些时刻存在已满的情况。

解决通过以上的分析,我们基本确定了问题的根源:Ruler 组件内置的缓冲队列堆积造成了告警发送的延迟。针对这个问题,我们选择调整队列的 maxBatchSize 值。下面介绍一下这个值如何设置的思路。由于每计算一次告警规则就会尝试推送一次缓冲队列,我们通过估计一个告警数量的最大值,得到 maxBatchSize 可以设置的最小值。假设你的业务系统需要监控的实体数量分别为 x1、x2、x3、...、xn,实体上的告警规则数量分别有 y1、y2、y3、...、yn,那么一次能产生的告警数量最多是(x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn),最多推送(y1 + y2 + y3 + ... + yn)次,所以要使缓冲队列不堆积,maxBatchSize 应该满足:maxBatchSize = (x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn) / (y1 + y2 + y3 + ... + yn),假设 x = max(x1,x2, ...,xn), 将不等式右边适当放大后为 x,即 maxBatchSize 的最小值为 x。也就是说,可以将 maxBatchSize 设置为系统中数量最大的那一类监控实体,对于 DMP 平台,一般来说是 MySQL 实例。

注意事项

上面的计算过程只是提供一个参考思路,如果最终计算出该值过大,很有可能对 AlertManager 造成压力,因而失去缓冲队列的作用,所以还是需要结合实际情况,具体分析。因为 DMP 将 Ruler 集成到了自己的组件中,所以可以比较方便地对这个值进行修改。如果是依照官方文档的介绍使用的 Ruler 组件,那么需要对源码文件进行定制化修改。

关于告警信息处理过程说明和告警通知的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 告警信息处理过程说明的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于告警通知、告警信息处理过程说明的信息别忘了在本站进行查找喔。
上一篇:兴宁智能运维公司招聘电话(兴宁智汇城效果图)
下一篇:告警准确率分析(告警规则的指标)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~