告警信息分析（告警数据分析）-睿象云平台

告警信息分析（告警数据分析）

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本篇文章给大家谈谈告警信息分析，以及告警数据分析对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。今天给各位分享告警信息分析的知识，其中也会对告警数据分析进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、告警管理
2、cephfs中告警盘点
3、华为设备有如下告警,期间并没有修改配置,请分析大概是什么原因
4、利用数据挖掘技术对网管系统中设备性能信息以及告警信息怎样进行分析?
5、腾讯云带宽告警问题排查及解决
6、数控机床出现EX1006 COOLANT ALARM是什么原因

告警管理

将CMDB系统与Prometheus连接，实现批量部署配置文件，批量管理告警信息等

1.收到告警后，能通过页面针对不合理的阈值进行单个
批量修改，在告警消息上能针对
单个阈值进行修改。
2.对应用进行分组，并针对该组制定告警规则。
3.告警发送通道的自助式配置。
4.维护窗口进行告警的单个
批量静默。

1.告警大屏上展示告警的关键信息，如应用、IP、维护者、重要性。
2.告警数据的分析，哪些应用或实例告警频率高。
3.告警的个例、批量修改，修改的记录有留痕。

哪里问题多？什么问题？。

1.平台下发数据是否正常，涉及规则、应用实例是否按既定规则推送。
2.规则变更后的生效时间，目前15分钟。
3.告警发生差异，触发阈值的告警数及送达告警数。
4.告警消息轨迹及时延，从产生告警及送达对应的通道。

1.针对硬件、网络、系统、应用（部分业务）四类采集器进行自助式告警规则、告警模板、应用分组配置。
2.自助式进行告警规则启用、禁用、静默。
3.告警大盘展现，不同级别不同颜色。
4.告警通知：钉钉@到人，接入电话、短信告警。
5.简化告警模板。
6.告警渠道管理。
7.支持用户订阅告警消息。
8.支持延迟通知设置。
9.行为日志记录：规则变更、阈值变更、静默变更。
10.告警消息上点击操作数据能同步到后端并处理。

告警信息分析（告警数据分析）

cephfs中告警盘点

总结下cephfs中由mds产生的告警信息。

Behind on trimming...

字面翻译落后于日志裁剪（trim）。mds的日志机制：mds以日志方式先保存元数据，元数据保存在每条操作的事件（event）中，事件（通常是1024个）组成segment。当segment到达一定数量时（mds_log_max_segments默认32）对日志进行裁剪，即将部分日志关联的元数据写回。出现该条告警实际上表明回写速度慢或者遇到了bug，单纯地将配置提高并不是最理想的办法。

Client name failing to respond to capability release

客户端没有及时响应释放cap的请求。在cephfs中客户端需要向mds获得响应的操作能力，称为cap。获得cap则有相关的操作能力。如果其他客户端需要操作时，mds会要求当前客户端释放cap。如果客户端出现bug或者没有响应，则mds会在60秒（session_timeout 设置）会出现该告警。

Client name failing to respond to cache pressure

客户端没有及时相应（mds的）缓存压力。元数据缓存一部分元数据信息，同时mds会在自身内存中缓存同样的信息。如果其缓存的元数据超过了最大inode缓存量或者最大内存用量，mds会要求客户端释放一定数量的缓存。如果在规定时间内即60s（mds_recall_warning_decay_rate的值）没有释放32k（默认设置在mds_recall_warning_threshold中，随后会减少）则产生告警。产生告警的原因可能是客户端存在bug或者无法及时响应。

Client name failing to advance its oldest client/flush tid

客户端没有更新其最久客户端tid值。tid是指客户端和mds直接通信的task id。每次客户端完成任务后更新该task id，告知mds mds可以不用管该id之前的任务了。mds即可释放相关的占用资源。否则，资源不会被主动释放。当mds端自行记录的任务完成数超过100K（max_completed_requests设置）时，客户端并没有更新id，则产生相应的告警。

出现该告警可能代表客户端存在bug。也遇到过mds因为锁问题部分请求卡住，重启mds 锁状态正常后可以恢复。

MDS in read-only mode

字面翻译mds进入只读模式。只读模式意味着在客户端上创建文件等操作元数据的行为将不被允许。进入只读的原因可能是向元数据池写入时发生错误，或者通过命令强制mds进入只读模式。

N slow requests are blocked

字面翻译多个慢请求在阻塞状态。出现该条告警意味着客户端的消息没有处理完成，超过了mds_op_complaint_time所规定的时间（默认30s）。可能出现的原因是mds运行缓慢，或者向rados写入日志未确认（底层pg或者osd出现问题），或者是mds存在的bug。此时，通过ops命令查看当前正在执行的操作，可进一步分析出现阻塞请求的原因。

Too many inodes in cache

字面翻译在mds的缓存中缓存了太多inode。mds的缓存指两个方面：inode数量和内存占用量。inode默认值mds_cache_size为100K，mds_cache_memory_limit为1G。到达一个告警的阈值后产生告警，一般为50%（mds_health_cache_threshold）。通过调整参数可以避免告警的出现，但是这只是治标的办法，治本的办法需要跟踪业务，了解资源占用的具体原因，是否只是通过调整参数可以解决。

华为设备有如下告警,期间并没有修改配置,请分析大概是什么原因

磁盘空间告警
告警信息告警信息分析：IGWB介质空间不足。
告警分析：主用IGWB在剩余磁盘空间小于15%告警信息分析的时候就会出磁盘空间告警，省公司要求话单保存时间：原始话单15天(D盘)，格式转换后的话单15天(E盘)，最终话单90天。
告警处理：删除部分格式转换后的话单(E：\backsave\Second\X3KM\)，剪切部分最终话单到应急工作站(暂时)，建议增加IGWB硬盘空间。
02备用IGWB磁盘空间不足
故障现象：备用IGWB磁盘空间不足
故障分析：备用IGWB是实现话单双备份的组成，并且如果备用IGWB磁盘剩余空间过小，主用IBWG异常的时候将无法倒换。
故障处理：清理备用IGWB磁盘空间。
03单板故障
告警信息：例如WSMU 板故障、单板CPU自检故障。
告警分析：无
告警处理：1.复位 2.拔插 3.更换
04电源故障
告警信息：-48V 电压过高告警。
告警分析：
告警产生原因：
· 动力进行例行放电测试，致电压临时过高
· 电压已恢复正常，但告警未自动消除，出现假告警
· 电压过高导致。根据指令DSP PDB可以查询到系统的电压正常范围是-42V～-57V,经常观察如果电压过高后，告警会在电压降到-54V的时候消除。如果告警长时间未自动恢复，可以用万用表测电压，看是否在正常范围内，如果电压已正常，可以手动把电压的门限值进行调高，使告警恢复后再把门限值调到正常范围内。
告警处理：
1.联系动力专业，确认是否在进行电池放电测试。如是，在测试完成后观察告警是否消除
2. 根据指令DSP PDB可以查询到系统的电压正常范围是-42V～-57V，经常观察如果电压过高后，告警会在电压降到-54V的时候消除。如果告警长时间未自动恢复，可以用万用表测电压，看是否在正常范围内，如果电压已正常，可以手动把电压的门限值进行调高，使告警恢复后再把门限值调到正常范围内。(现在配电框监控板默认的告警上限目前定义为57V，产品设置时，可在此基础上加3V，设置为60V比较合适。
MSOFTX3000可以通过软调修改电压告警上限。
软调命令如下：
STR SFTD: LT=MN, MN=2, PID="166", CTRL="36", PM0="1", PM1="60", PM2="42";
STR SFTD: LT=MN, MN=2, PID="166", CTRL="36", PM0="2", PM1="60", PM2="42";)
3.观察一段时间，如告警不会自动恢复就联系动力室处理。
05IGWB倒换
告警信息：iGWB双机倒换
告警分析：双机倒换通常是主用IGWB异常引起，可能原因：磁盘空间不足，重要目录被改动，网络故障，进程异常。
告警处理：清理磁盘空间，恢复被改动目录，检查处理网络，重启IGWB进程。
06传输故障
告警信息：E1端口故障或信号丢失。
告警分析：无
告警处理：自环检测，通过LOP E1对本端端口进行软件环回，如正常则表示单板端口硬件正常，再在各段DDF架端进行环回测试，逐段排除线缆原因，如是本端问题则重做线缆接口、换线或者换板，如是传输问题则转传输室处理。
07IGWB内存过载
告警信息：iGWB 内存过载。
告警分析：IGWB上运行的主要进程有om_proc.exe，ap_proc.exe，cfg_proc.exe，cls_proc.exe，knl_proc.exe。主要检查这些进程有没有大量占用内存空间。现在SZS09,SZS12的om_proc.exe进程占用大量内存不释放。
告警处理：暂时的处理办法是重启om_proc.exe，最终解决方法等待华为工程师补丁解决。
08IGWB备份失败
告警信息：iGWB备份连接失败。
告警分析：IGWB备份有两份，都是从主用IGWB以FTP方式备份到备用IGWB。一份保存在备机的E:\billforbs，保存1000个文件，通过smartback实现；一份保存在E:\ finabill_bak，保存时间为90天，通过igwb.ini文件的配置信息实现。
告警处理：检查smartback备份的路径和用户名密码是否正确；重启smartback软件；重启IGWB进程。
09网络故障
告警信息：BAM到主机连接中断、TCP链路故障。
告警分析：故障可能原因lanswitch异常，网口松动，网卡运行异常。
告警处理：拔插BAM主机网线，拔插lanswitch端口网线，禁用启用网卡，重启BAM。
10MTP、SCCP、M3UA故障
告警信息：M3UA路由传输禁止路由不可用；MTP链路故障/MTP 链路定位失败；SCCP目的信令点禁止。
告警分析：故障可能原因传输故障引起，配置数据变更，链路负荷过高。
告警处理：检查传输，检查数据配置信息，检查是否为垃圾数据产生的告警。
11话单文件校验错误或话单文件丢失
告警信息：无
告警分析：可能是话单文件传送到计费中心出错，需要重传计费文件
告警处理：重传相应计费文件
12更换单板时程序加载不成功
告警信息：单板程序加载不成功
告警分析：可能原因:1.单板加载软开关未打开.2. 加载文件丢失
告警处理：1.通过MOD LSS修改单板加载软开关,设置为”程序不可用，数据不可用 ,数据可写, 程序可写”,加载完成修改为” 程序可用，数据可用，数据可写，程序不可写”
2.主机加载文件都存于BAM的D:/data 目录下，在此目录下查找所要加载的单板的程序文件，如未找到，说明文件因其告警信息分析他原因丢失，通过在其他同类型同版本局上能找到该单板的程序文件，将文件拷贝至该目录下，重新复位加载单板。
13硬盘故障
故障现象：故障磁盘灯亮红灯。
故障分析：华为软交换的硬盘都采用磁盘阵列方式对数据进行保护，硬盘支持热拔插，坏一块磁盘不影响系统运行，但是要尽快安排更换。
故障处理：更换硬盘。
14主机时间偏差
故障现象：检查主机系统时间发现网元的主机时间和北京时间相差较大。
故障分析：主机系统时间就是话单产生时间，华为认为偏差在正负5秒是正常的，超过这个范围需要校正。
故障处理：主机时间和BAM时间同步，更正其中一个就可以达到校正的目的。可以通过DSP TIME查看系统时间，通过指令SET TIME修改，或者直接改BAM的系统时间。
15CRC校验错误
故障现象：CRC校验错误告警。
故障分析：交换机数据与BAM机数据不一致，可能是由于工程引起的故障。
故障处理：通过SND SPD指令对校验出错的数据表进行强制发送，再次执行STR CRC进行CRC校验
以上，就是给大家整理的华为设备故障分析与排除方法，希望对你能有所启发。

利用数据挖掘技术对网管系统中设备性能信息以及告警信息怎样进行分析?

For
a
description
of
your
利用数据挖掘技术对网管系统中设备性能信息以及告警信息进行分析...，
带着你的问题和Email来找我,
请与我们联系进一步需求,
有可能帮你,
使用百度_Hi给我留言,
此回复针对所有来访者和需求者有效,
ES:\\84C1CC070C71738DC48000759777AE96

腾讯云带宽告警问题排查及解决

产品服务器设置了「外网带宽使用率 = 100%，统计粒度5分钟，连续1次满足条件则每1小时告警一次」告警策略，基本上我每天都收到多条告警信息。

放大一点查看数据：

服务器部署了 web 服务和用于存储图片资源，报表导出和资源（平均200KB左右，非 kb）一张，部分页面有时候会放好几张图片展示。如果是连续的浏览充电站、商城，或者导出报表，是很容易触发2次峰值而导致报警的。

刚才只是大约估计了一下可能的情况，排查问题还是要系统地去看，需要挑选了告警的时间区间，分别进行数据统计。

我们服务器对外的带宽服务有：

WEB 服务比较简单，nginx 上都有日志，可以通过日志的 bodysize 统计。其他两个是通过 socket 的，持续通讯的，所以我选择了数据日志的 log 进行大概统计。

以下是我的 nginx access.log 日志格式：

可以通过配置调整 ngx_http_log_module 的 log format，如:

可以看出 nginx 日志的 body_bytes_sent 是字节，所以可以通过以下指令查看数据量（$10 是 body_bytes_sent 所在位置，需要根据实际调整；grep 内容是某一分钟的时间）：

最终实际查看一天下来的流量也400MB，几个高峰的分钟段也就几M，都在预期合理的范围，并且形成不了持续的拥堵情况。

Web Socket 只有 connect 时的信息会写在 nginx access log 上，不过平时通讯的信息都有手动写相应的 access log（注意排除业务的log信息）。经统计 web socket 的 access log 比较小，一天只有十几M的数据，基本可以忽略。

注意：心跳包也需要统计进去。

桩agent 是通过端口直连的，没有经过 nginx，log 比较分散，统计了几个大的agent的 log（只统计 access log），占用的大小都不大，基本不形成高峰。但由于数量多，没有最终确定某个时间段的高峰值。

通过 nginx 配置，限制最大的带宽，可以稍微缓解一次访问的压力。避免一个大文件的访问，就长期占用了所有的外网带宽。

Nginx 限流有两种方式：

ngx_http_limit_req_module 模块提供限制请求处理速率能力，使用了漏桶算法(leaky bucket)。下面例子使用 nginx limit_req_zone 和 limit_req 两个指令，限制单个IP的请求处理速率。

==在 nginx.conf http 中添加限流配置：==

==配置 server，使用 limit_req 指令应用限流==

上面例子限制 10r/s，如果有时正常流量突然增大，超出的请求将被拒绝，无法处理突发流量，可以结合 burst 参数使用来解决该问题。

burst 译为突发、爆发，表示在超过设定的处理速率后能额外处理的请求数。当 rate=10r/s 时，将1s拆成10份，即每100ms可处理1个请求。

此处，burst=20 ，若同时有21个请求到达，Nginx 会处理第一个请求，剩余20个请求将放入队列，然后每隔100ms从队列中获取一个请求进行处理。若请求数大于21，将拒绝处理多余的请求，直接返回503.

不过，单独使用 burst 参数并不实用。假设 burst=50 ，rate依然为10r/s，排队中的50个请求虽然每100ms会处理一个，但第50个请求却需要等待 50 * 100ms即 5s，这么长的处理时间自然难以接受。

因此，burst 往往结合 nodelay 一起使用。

nodelay 针对的是 burst 参数，burst=20 nodelay 表示这20个请求立马处理，不能延迟，相当于特事特办。不过，即使这20个突发请求立马处理结束，后续来了请求也不会立马处理。burst=20 相当于缓存队列中占了20个坑，即使请求被处理了，这20个位置这只能按 100ms一个来释放。

这就达到了速率稳定，但突然流量也能正常处理的效果。

ngx_http_limit_conn_module 提供了限制连接数的能力，利用 limit_conn_zone 和 limit_conn 两个指令即可。下面是 Nginx 官方例子：

limit_conn perip 10 作用的key 是 $binary_remote_addr，表示限制单个IP同时最多能持有10个连接。

limit_conn perserver 100 作用的key是 $server_name，表示虚拟主机(server) 同时能处理并发连接的总数。

需要注意的是：只有当 request header 被后端server处理后，这个连接才进行计数。

使用独立的云存储，专门存放资源文件。

Agent 与桩之间是通过外网连接的，可以考虑多加一台服务器，与产品服务是一个内网的。Agent 先连接到一台转发服务器，与 ECMP直接通过内网连接。

端口转发参考：《Agent端口映像》

略

鉴于当前告警实际对访问的影响可忽略，将触发次数调整为2次再告警。（后面再也没有收到告警了~）

《 Nginx 的两种限流方式》
《常用的服务器日志分析命令》

数控机床出现EX1006 COOLANT ALARM是什么原因

从报警信息分析：

EX1006应该是报警号，为外部报警，即从PLC传过来的报警内容

COOLANT ALARM，冷却液报警

综上，请检查冷却液相关的控制回路、硬件等是否有异常。

关于告警信息分析和告警数据分析的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。告警信息分析的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于告警数据分析、告警信息分析的信息别忘了在本站进行查找喔。

告警通知变得轻松便捷——微信告警接口指南

619 2023-03-23

告警信息分析（告警数据分析）

告警管理

cephfs中告警盘点

华为设备有如下告警,期间并没有修改配置,请分析大概是什么原因

利用数据挖掘技术对网管系统中设备性能信息以及告警信息怎样进行分析?

腾讯云带宽告警问题排查及解决

数控机床出现EX1006 COOLANT ALARM是什么原因

实时警报通知：微信告警通知的重要性解析

告警通知变得轻松便捷——微信告警接口指南

睿象云智能告警平台的分派策略