告警分析指标(告警列表)

来源网友投稿 508 2023-04-02

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈告警分析指标,以及告警列表对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享告警分析指标的知识,其中也会对告警列表进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

运维告警等级详解

互联网时代 IT 相关的衍生产品有很多,监控工具为其中的佼佼者。很多监控工具对于确保网站和应用的平稳运行做了非常多的工作,但是,对于告警产生到通知用户的过程,还有很大的改进空间。

在合理评估告警严重程度的基础上,确保通知合适的运维汪,对于快速有效解决事件至关重要。但是我们对告警等级的重要性以及如何设置告警等级来提高团队效率,还缺少必要的认识。针对该问题,以下几条快速指南可以供大家参考。

什么是告警等级?有什么重要性?

简单来说,告警等级是表征事件严重性的指标之一,取决于事件对用户体验以及网站或应用整体性能造成的负面影响的大小。

例如,导致网站崩溃的事件,被认为负面影响极大,告警等级也就较高;而一个Ping的问题有时不会很明显,被认为负面影响略小,告警等级也就较低。

告警等级的重要性体现在以下方面:

有助于减少和控制告警噪声的数量。

使得错误处理流程更为顺畅。

使你解决问题更有效率。

总而言之,根据告警等级不同,可以优先处理重要事件,避免干扰到不在职责范围内的无关人员。

怎样创建合适的团队告警等级规则?

确定告警等级的重要性,相信大家已经了解了,但如何创建一个适合整个团队事件严重程度的评估方法,是监控工具开发人员的棘手问题。

一般来说,评估告警等级过程需考虑以下3个方面:

1.严重性等级结构

2.团队结构

3.通信结构

1)严重性等级结构

严重性等级的主要目的是确保合适的人员能够知道问题,并按照严重程度来处理问题。一般来说,设置严重程度等级结构的最简单方法是根据商业价值来确定网站或应用的最关键部分。并且在团队中,并没有所谓的正确或错误的方式来判定严重性等级。要知道,重要的是了解团队如何划分具体的事件,并确保每个人都达成共识。

2)团队结构

清晰地认识团队结构并对告警进行有序分派,将提高整个团队的执行效率。为了更有序和有效的分派告警,我们应该注意几个问题:

告警处理需要涉及哪些人?

处理事件时,每个人的责任是什么?

告警要求在哪个环节通知哪些人?

3)通信结构

如果你不知道告警在团队结构内应该如何通信,那么建立通信结构将是创建严重性等级过程中最为困难的一环。

你可以这样考虑:

严重性等级结构:这个问题有多严重?

团队结构:这是谁的责任?

通信结构:如果问题发生,如何以及何时联系团队成员?

创建通信结构能将不同事件与团队中的不同角色联系起来,并根据时间紧迫度与错误频率添加更明确的操作。这样,可以确保通过恰当的渠道联系到合适的人员,且符合当前的情况。如果一个响应者不在线上,可通过告警升级机制确保团队中的其他成员得到通知。

根据团队结构,选择合适的通知渠道与阈值配置,意味着问题解决能更加高效,且不会牵涉到无关人员。
RIIL是国内领先的IT综合管理解决方案,通过IT资源综合监控、运维流程管理、3D数据中心管理三大模块帮助客户实现IT部门人财物的全面管理,提升IT服务质量以及运维管理绩效

企业如何检测告警指标异常?

随着业务量告警分析指标的增长告警分析指标,告警数据也变得愈发庞大,告警信息大爆发,告警通知不断,更会在无形中增加运维人员告警分析指标的工作难度。指标告警告警分析指标的阈值太高会导致漏报遭到投诉、阈值太低会导致噪音太多错过真正的异常。听云北冥告警平台采用AIOps将人工智能应用于告警领域,提供告警一站式服务与事件智能化运维。告别传统指标固定阈值、基线阈值不准确问题,根据指标波动的变化,比如周期、趋势、时间模式等因素来综合判断指标的波动变化,系统自动优选合适的异常检测算法,针对指标动态变化数据进行实时检测,识别出真正的异常行为触发告警,提高告警准确率。

运营指标与告警策略思考

一、运营指标

用户指标数据 告警分析指标,通过可以衡量用户体验的的核心行为表现数据指标来衡量效果

业务性能监控, 各API状态等后台不可见的算法流程和内容

举例告警分析指标

新闻产品: 首页推荐结果的点击率、各类新闻的占比等(拟合推荐策略效果)

电商产品 :单店日销售额、促销产品影响面(评估促销收益比)

云服务产品: 云服务可用率、云服务作业成功率

游戏产品: 业务规则监控(用户胜率、攻击频率上限)、系统可靠性监控

由于业务规则监控取决于业务方自己的业务属性较多,下文举例系统可靠性监控。

【1】请求数,请求到达速率

【2】正常响应数,正常响应占比

【3】错误响应数,错误响应占比

【4】响应延时

【5】消息队列长度,排队堆积时间、消息量

互联网系统根据计算机网络模型,可靠性监控可以分为下面4层。

【1】 应用层 :用户访问的前端页面、后端接口请求

【2】 服务层 :db,中间件等各种进程

【3】 硬件层 :cpu,内存,磁盘,网络

可靠性监控思考:

【1】不应该用采集的难度决定你使用什么指标去告警。

例如:很多情况下cpu使用率可能是最好采集的,但是未必是最值得告警的。

【2】不要给运维他们想要的告警,而是要做“真正”想要的告警。

例如:运维告诉你它需要对db进程的cpu使用率超过x%的时候告警,它给你的是一个他认为最优的解决方案。但是他真正想要的是知道db服务是否有异常,cpu使用率超过x%未必是最好的告诉你服务是否出现异常的指标。
二、规则告警

告警规则 :根据历史数据定义一个正常波动区间,超出波动区间就报警。

告警策略主要字段: 名称、资源类型、监控对象、告警级别、告警策略(根据资源类型展示不同的数据信息)、监控指标对象、告警指标间处理逻辑、触发条件、告警频率、状态、最近改变时间

吿警方式 :

短信、电话 :成本高,实时性好,到达率高

办公APP :成本低,实时性中,到达率中

邮件 :成本低,实时性差,到达率高

告警收敛:

【1】服务运营指标收敛 策略:按服务名、运营指标去重

【2】模块告警收敛 策略:按照集群名称做去重

【3】接口告警收敛 策略:按照接口名称做去重

【4】告警频率收敛 策略:按照M分钟N次限制告警

【5】不同时段区分告警 方式策略:工作日/非工作日,白天/夜晚区分

【6】逐层上报 告警策略:先模块负责人告警,n分钟未恢复升级,m分钟未恢复再升级

【7】黑白跳动 策略:当系统由正常变为异常,异常恢复正常都通报

是否告警:

曲线平滑 :故障一般是对近期趋势的一个破坏,视觉上来说就是不平滑

绝对值的时间周期性 :静态或者动态设置最近一段时间的最低值、最高值

波动的时间周期性 :假设两个曲线不重合,在相同时间点的波动趋势和振幅也是类似的(即不同时间段的上、下限值的差是一致的)

波动回归正常值 :当曲线开始回升到历史范围的时候,一般可以确认这个时间段是真的故障了。同时也可优统计误警率,漏警率。

告警自动消除:

告警的实质就是“ 把人当服务用 ”。在一些事情还没有办法做到程序化执行的时候,用告警通知人的方式去干预系统达到修正的目的。后续通过收集异常问题,并制定相应的自动化解决方案,实现告警的自动消除。
三、产品画像

产品画像,可以结合已有的运营指标、研发指标、部署指标、故障指标去实现云服务产品画像。

在选取指标时,需要注意:

【1】指标真实有效,即服务可用率,故障率等指标的归属责任方式明确的

【2】指标同步时,明确指标状态、流程,避免数据在同步过程中变为2份数据。一般也采用ETL离线同步的方式,结合全量表同步与增量表同步。

协议转换器指示灯告警说明?

一、概述告警分析指标

trav-v35/E1、trav-v35/FE1、etram-ev35f、etram-ev35是北京绿井科技发展有限公司自主研发生产的面向大用户接入的v.35协议转换器。它们是协议转换器,实现了V35到E1的帧与帧之间的转换(trav35/E1只实现非帧的操作模式)。

二、安装和维护中常见的问题:

在设备的安装、调试或维护过程中,工程师经常会遇到电路故障,设备会出现各种类型的报警,如LOSalarm,AISalarm,TD或RDnotbright等。如何在实践中解决类似的问题?

三、v.35协议转换器常用灯光含义:

1.洛杉矶:预警指标。LOS是变频器E1信号损耗的指示信号。

2.AIS:警报指示器。AIS为传输设备输入的转换器E1,电缆正常连接,但无信号。此时,转换器只接收传输设备发送的完整“1”码。正常情况下,灯是关着的。

3.TD:数据发送指示灯。TX是变频器v.35的数据发送指示信号。

RD:数据接收指示灯,RX是变频器v.35的数据接收指示灯信号,正常时此灯为亮。

4.故障排除、分析和解决

1.故障:线路v.35不通,变频器LOS报警灯亮。

分析:变频器有LOS报警,表明传输装置E1信号丢失。

原因及解决方案:

a.连接发射机E1到变频器E1的E1电缆出现故障。它可以通过万用表测量来判断。更换E1电缆解决故障告警分析指标

B.光端机故障,没有信号发送到E1接口,或者光端机没有通电。万用表可用于测量光端子机是否有电源输入,或光端子机电源是否短路,或通过光端子机E1接口是否能观察到LOS报警状态。维修电源系统或更换光端机解决问题。

C.转换器故障,E1接口无法接收信号。通过断开转换器的以太网电缆,可以观察到self-loopE1接口,判断LOS报警状态。如果不排除LOS报警,可以判断设备故障。故障可以通过更换变频器来解决。

2.故障:v35线路不通,变频器AIS报警灯一直亮着。

分析:变频器有AIS报警,说明连接光端机E1发送和变频器E1接收的E1电缆连接正常,但无信号。此时,转换器接收光终端机器发送的全部“1”码。

原因分析:

A.光终端不接收终端转换器发送的E1信号。检查E1接线是否正常。

B.如果电源系统无法为光学终端和转换器供电,则需要对电源系统进行大修。

c、如光学终端、转换器损坏,需检查更换设备。

3.故障:线路v.35被阻塞,RD灯未亮。

分析:变频器RD灯未亮,说明变频器未收到路由器发送的信号。

原因分析:

A.路由器v的模块。35是损坏和v的信号。35不能发送。需要替换路由器来恢复线路。

电缆故障,无法传输v。35的信号。更换转换器或路由器v.35电缆以恢复线路。

C.转换器故障,无法接收v35信号。需要更换转换器以恢复线路。

4.故障:v.35线路被阻塞,TD灯未亮。

分析:v35信号不发送到这端,该转换器也不发送信号到这端路由器。如果灯亮着,这端与转换器和路由器没有任何关系。

原因分析:

A.端到端路由器损坏无法发送V35信号,或者转换器损坏无法接收v信号,或电缆的v。35是错误的,端到端转换器将有需要的RD灯不开,所以更换路由器和恢复线路。

B.端部路由器和转换器无法加载,v.35的信号无法传输到这端,这端也没有信号输出。

五、结论

当有一个错误在v.35行,首先需要检查局的远程设备是否正常启动,然后E1输电线路是否正常,然后判断故障发生在本地端或在远程端通过转换器的指示灯。最后,通过设备的检测、设置和更换,解决了故障。

另外,以太网传输网络中,不能出现网络回路回退(如E1回路回退、以太网回路回退),否则会引起网络风暴,导致以太网数据碰撞或网络瘫痪。

扩展资料:

注意事项:

协议转换器角色:

继电器的使用:由于信号在线路上传输,距离远了,信号就会衰减,因此需要一个自体网络协议转换器来将信号放大并中继到目标飞行器进行进一步的传输。

转换协议:以最简单的为例:在串行网络中,最常用的协议有RS232、RS485、CAN、USB等。如果您的PC只有一个串行端口100DB9,那么其他需要通信的机器使用USB接口。

解决方案很简单,使用usb-rs232协议转换器。将两种不同的协议定时,电相等进行交换。

飞昌科技有限公司是一家专业生产光终端机、光收发机、工业交换机、协议转换器的企业。

cd2a9告警会影响指标么

1、用户面承载链路故障告警告警分析指标,警告影响告警分析指标:该用户面承载的业务无法正常进行。产生告警原因:自建立模式下,当检测到本端无法和对端正常通讯时,产生此告警。
2、 SCTP链路故障告警,警告影响:导致SCTP链路上无法承载信令。产生告警原因:当基站检测到SCTP(Stream Control Transmission Protocol,流控制传输协议)链路无法承载业务时,产生此告警。
3、 X2接口故障告警,警告影响:基站释放正在通过产生告警的X2接口进行切换的用户,在该告警恢复前,基站将无法继续支持与对应基站间的X2接口切换流程,无法继续支持与对应基站间的小区干扰协调过程。产生告警原因:X2AP(X2 Application Protocol)连接在底层SCTP链路资源可用时,eNodeB将向对端eNodeB发起连接建立请求告警分析指标;对端eNodeB对连接请求做合法性检查,检查不通过,将无法建立连接;eNodeB收到对端eNodeB的响应后,如果发现对端eNodeB在黑名单中将无法建立连接。
当底层SCTP链路故障、X2AP协议层因配置错误或者对端eNodeB异常无法建立连接时,产生此告警。
4、 小区不可用告警,警告影响:小区状态与基带资源、射频资源、CPRI资源和传输资源这些物理资源有关,也与License有关。在物理资源不足、物理资源故障或物理资源被闭塞的情况下,小区状态会因为无可用的物理资源而变为不可用。即使物理资源可用但License不足时,也会导致小区不可用。多模场景下,由于共享资源受限(如频率、功率),也会导致小区不可用。当小区状态变为不可用,且该状态持续90秒(默认)未恢复时,将产生该告警。当小区状态变为可用,且该状态持续15秒(默认)一直可用时,则上报告警恢复。告警产生和恢复的时长可以通过SET ALMFILTER命令进行设置。产生告警原因:供电后自恢复,OMC920每隔1分钟会向被管网元发送握手请求,当被管网元三次无应答时判定通信状态为断连,上报本告警。本告警上报后,只要断连未恢复,OMC920不会因断连期间的故障原因变更而上报新的告警。OMC920会每隔2分钟重连已断开的连接,如果重连成功则自动清除本告警。
5、 S1接口故障告警,警告影响:基站将主动去激活所有与异常的S1接口相关的小区,并释放此前已经成功接入到这些小区内的所有在网用户。新的用户将无法接入到这些小区。
6、 射频单元驻波告警,警告影响:天馈接口的回波损耗过大,系统根据配置决定是否自动关闭射频单元发射通道开关,当“驻波比告警后处理开关”取值为“打开”时,射频单元发射通道开关被关闭且告警无法自动恢复,该发射通道承载的业务中断。当“驻波比告警后处理开关”取值为“关闭”时,射频单元会启动降额(默认3dB,具体由当前的业务状态决定),从而防止硬件损坏, 且告警可以自动恢复。天馈接口的回波损耗较大,导致实际输出功率减小,小区覆盖减小。产生告警原因:当射频单元与对端设备(上级/下级射频单元或BBU)间接口链路(链路层)数据收发异常时,产生此告警。
7、 射频单元维护链路异常告警, 警告影响:射频单元承载的业务中断。产生告警原因:BBU和射频单元之间通过电缆或者光纤进行连接。当BBU与射频单元间的维护链路出现异常时,产生此告警。
8、 BBU IR接口异常告警, 警告影响:在链形组网下,下级射频单元的连接链路中断,下级射频单元承载的业务中断。如果基站工作在CPRI
MUX特性的组网,本制式为汇聚方且故障端口为提供汇聚功能的端口时,会造成对端制式的业务中断。在环形组网下,射频单元连接链路的可靠性下降,下级射频
单元的激活链路将倒换到备份链路上,在热环配置下对业务没有影响,在冷环配置下业务会出现短暂中断。BBU与下级射频单元的光模块的收发性能轻微恶化,可
能导致下级射频单元承载的业务质量出现轻微恶化。产生告警原因:当BBU与下级射频单元之间的光纤链路(物理层)的光信号接收异常时,产生此告警。
9、星卡锁星不足告警,警告影响:如果该告警一直存在,最终会导 致基站GPS时钟源不可用
10、 小区退服告警 ,警告影响:小区建立失败,所有业务中断。产生告警原因:当小区建立失败或小区退出服务,并且原因不是配置管理员人为闭塞时,产生此告警。
另外还有 BBU IR光模块收发异常告警, 基站控制面传输中断告警,网元连接中断,小区服务能力下降告警,射频单元IR接口异常告警,同类告警数量超出门限, BBU IR光模块/电接口不在位告警等警告类型。 关于告警分析指标和告警列表的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 告警分析指标的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于告警列表、告警分析指标的信息别忘了在本站进行查找喔。
上一篇:6款一直不火的Windows软件,实际上却很逆天,建议低调使用
下一篇:Zabbix5.2番外之发展历史
相关文章

 发表评论

暂时没有评论,来抢沙发吧~