告警根因定位方法(告警根因定位方法错误)

4747 754 2022-10-29

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本文目录一览:

运维监控工具太多,根因定位不够智能和快速,如何解决?

常规的运维监控工具,基本都是监控某一种设备或某种应用的数据,并且通过阈值的设置来进行故障告警。这样虽然也达到了监控的目的,但在实际使用中,常遇到一个个设置阈值特别麻烦、阈值设置不合理造成告警过少或过多、不同监控数据之间没有关联,出一个故障各系统都在告警,难以判断根因的情况。

智能运维AIOps系统,能通过“数字运维中台”,将原有的分散的运维监控数据统一采集、存储、归档到中台内,并且利用“统一监控平台”对这些数据进行分析管理,如果原来有CMDB数据,还能建立关联并生成拓扑图。

当故障发生、系统告警时,告警辨析中心能利用规则和算法,锁定最重要的那些告警信息,并根据统一监控平台梳理的数据关系,协助查询日志及其他故障数据,更快定位根因。

AIOps平台架构和各数据层关系

智能运维是如何抑制告警风暴的?

通常智能运维中的告警收敛场景,以机器学习算法为驱动,对海量的告警事件进行降噪和关联分析,辅助根因定位并可沉淀故障处理的知识,从而提升企业的运维效率,降低运维成本。 告警产生后,AIOps系统通过算法甄别 内容相关性(重复性、相似性)、时序相关性和拓扑相关

性 事件来进行告警事件的自动化抑制。这类收敛抑制,往往能得到99%的告警压缩率,极大地提高了告警有效性。

在一个完整的智能运维告警产品里,除了告警收敛,还可以基于故障传播链及拓扑信息 ( 可选 ), 智能发现突发故障场景;基于告警“熵值”算法,实现告警的动态优先级推荐;通过时序以及拓扑关系定位故障场景根因,并进行根因标记。当这些都可以完成时,由告警事件一步步引导的根因定位和排障,才是真正智能运维发挥了作用。

追根溯源 如何定位根本原因

追根溯源定位根本原因的技巧:

1、客观地而不是主观地、发展地而不是静止地、全面地而不是片面地、系统地而不是零散地、普遍联系地而不是孤立地观察事物、分析问题、解决问题,在矛盾双方对立统一的过程中把握事物发展规律,也就是分析解决问题的基本要领。

2、分析事物的关健之问,坚持问题导向,就是通过关键之问的引导,追根溯源,透过现象抓住主要矛盾,就是问题的本质和关健,再运用科学的方法分析解决问题。

“根本原因”概念分析

根本原因就是导致我们所关注的问题发生的最基本的原因。因为引起问题的原因通常有很多,物理条件、人为因素、系统行为、或者流程因素等等,通过科学分析,有可能发现不止一个根源性原因。

根本原因分析法的目的就是要努力找出问题的作用因素,并对所有的原因进行分析。这种方法通过反复问一个为什么,能够把问题逐渐引向深入,直到发现根本原因。根本原因分析作为一个一般性的术语,存在着一系列不尽相同的结构化的具体方法,用于解决具体的组织问题。

在通信中基站的分级告警是由什么原因造成的

外接天馈设备的驻波比升高,会造成基站的告警。检查时可查看以下几个方面:

1.天线与馈线的接头处是否密封好,有无进水现象。

2.可检查馈线是否有损伤及扭曲。

3.测试天线的驻波看是否正常。

驻波告警定位方法

1、驻波告警1(VSWR1)

1)检查CDU有故障

利用测试手机测试基站收发信号功能是否正常。

若收发信信号功能正常,利用CDU强制复位功能来确定CDU是否误告警。如果CDU复位后故障不重现,

那么说明CDU有误告警,更换CDU。否则,CDU没有误告警,此时可通过“置换”等方法来确定是否CDU有故

障。若CDU没有故障,说明天馈系统有故障,转第(2)步。

若如果收发信号不正常或信号不通,那么说明天馈系统+CDU的上下行通道可能有问题,在第一步中通

过“置换”法确认CDU没有问题后转第(2)步。

2)检查天馈系统是否故障。

可以通过测试(室外)天馈系统的驻波比来检查(室外)天馈系统有无故障。在与CDU 模块 TX/RX

ANT 端口相连接的1/4"跳线接头处,测试天馈系统的驻波比,同时晃动1/4"跳线和机柜顶 1/2"跳线,观

察仪器显示的驻波比数值是否变化很大。如果驻波比数值变化很大,那么说明电缆接触不良。如果驻波比

大于1.5,那么可判断天馈系统有故障,按“步步为营”等方法处理。

!!当有塔放时,必须先切断塔放馈电,防止短路现象和其它损坏测试仪表的现象发生,再测试 CDU

TX/RX ANT端口驻波是否严重超标。

3)上述步骤一般能定位CDU 过驻波告警1(VSWR1)故障原因;当上述步骤不能定位CDU 过驻波告警1

(VSWR1)故障原因时,按CDU驻波告警处理功能不稳定或CDU TX/RX ANT接头与1/4"跳线接头匹配不良处

理。前者更换CDU,后者更换CDU和1/4"跳线。

4)若TRX上报驻波比告警,则需要首先检查TRX发射端口(TX)到CDU的连线是否正常及接头是否拧紧,同

时可以通过更换TRX来检查是否是TRX误告警。

2、驻波告警2(VSWR2)

1)当CDU 发生过驻波告警2(VSWR2)时, CDU会上报告警给后台。, 当该告警持续一段时间(一分钟)后,

CDU将向后台上报驻波严重告警。此时操作维护单元(TMU)在接收到驻波严重告警后,将自动向TRX发命

令关掉功放。

2)定位告警故障原因,参见过驻波告警1(VSWR1)问题定位的一般方法。

分集接收告警的故障分析与处理

在GSM基站维护中,分集接收丢失是一种出现较为频繁的故障,是影响网络指标的一个重要因素。而许多维护人员并不是很认真的去思考这一问题,只是简单的将TRU复位,有的甚至去更换天线做一些无用功。

产生分集接收丢失时,一个或多个TRU在50分钟内至少有12db的差异,由此接收机的灵敏度会减少3.5db。

在空间分集中,两根天线间距超过4米的情况下,利用分集接收可以得到3dB左右的增益,同时基站可以通过对两路信号的比较来判断自己的接收系统是否正常,如果TRU检测两路接收信号的强度差别很大,基站就会产生分集接收丢失告警。分集接收丢失告警可能是TRU、CDU、CDU至TRU的射频连线或天馈线故障引起的。

对于定向基站来说,其最常见的是天馈线接错。因为馈线分别连接着室内机架和塔顶天线,如果安装人员不细心,就很容易出现机架和天线连接交叉的错误。如果天馈线连接不正确,则同一小区内两根天线的方向就会不一致,方向不对的天线就接收不到该小区手机发出的信号或接收信号很弱,从而使基站产生分集接收丢失告警,同时该基站也伴随着较高的拥塞和掉话。这种原因造成的告警总是两个或三个小区同时出现。对于这类告警,第一种方法依次核对每根天馈线,这种方法的优点是故障定位迅速准确,缺点是必须依靠高空作业人员配合;第二种方法是在室内依次将天馈线进行倒换,如果一、二小区同时有这种告警,则错误的可能是13、14、23或24这两根天线接错,我们可以通过依次互换以上各对天线来解决问题。这种方法虽不用爬铁塔,但经常要倒换好几次天线,还要根据相应的话务统计分析来确认;第三种方法是通过信号测试,对于采用收发共用天线的基站,在距基站一公里左右的某一小区的中心点,利用SAGEM测试手机或其它仪表依次测量该小区所有载频的接收电平(应关闭该小区的跳频),根据测量结果来判断天馈线是否接错。如果该小区只用了一根发射天线,在测试完该无线后可以将发射改到另一根天线上。

归结起来,分集接收丢失故障有以下几种类型及处理方法:

1. 接收路故障

首先用OMT软件去定位此故障位于哪一扇区,此时在HARDWARE菜单下天线会显示红色,且用MONITOR查看会显示FAULT:ANTENNA(即天线故障),然后用SITEMASTER(天馈线测试)检测此扇区接收路的天馈线是否有故障。(另外注意TRU与CDU接收路的射频线, 射频线出现故障几率很小)

2. TRU故障(故障几率很大)

首先排除接收路故障后,用OMT软件去检测TRU的SSI的值,在CUR不为零的情况下,当SSI的值的绝对值大于12时,若SSI的值为负值,此时TRU坏的可能性非常大,更换此TRU后再检测SSI的值是否正常.如果仍不正常,(若本扇区有其它TRU则检测其它TRU的SSI的值是否正常). 若SSI的值为正值,就有可能为接收路故障(CDU上跳线接头可能没接好).当SSI值正常,但是TS利用率为零时,毫无疑问TRU已经坏了。

3. CDU故障

在排除上面二种故障后,将此扇区的CDU移至其它正常的扇区,若为CDU故障,用OMT软件去检测则会发现分集接收丢失故障也会伴随一起移动.(从话务统计可以看出掉话较严重)

4. HLIN 、HL OUT连线故障

更换HLIN 、HL OUT连线即可(此时伴随RX CABLE DISCONNECT 故障)。

5. 相邻扇区的发射天线过近

相邻扇区的发射天线主瓣不能重叠较多,一般在工程中天线分集距离为4至7米(为波长12至18倍),所以一般为此扇区发射路和接收路接反,在CDU上换发射和接收跳线即可。

当存在邻频,在BSC上查明此小区是否与相邻小区存在干扰,若存在,小区资源的ICMBAND级别一般为3、4(特别是96这一频点与移动公司所用频点的干扰,此时要借助测试手机进行测试移动公司所用频点),对此小区进行换频。

7. 天线松动

此表现为BSC上分集接收丢失时有时无(几小时一次),到现场用OMT软件去检测可能没有此故障,此时应从DXU LOG里调出记录,找出故障扇区对接收天线进行紧固。

8. 其它

主要是工程原因,例如:带辅机柜时,CDU上HL IN接到HL OUTB 上或主机柜与辅机柜HLIN、HLOUT机柜顶连线接反或连线有故障等。

如何快速识别otuk层开销告警,定位故障原因

1 otuk传输设备的告警

1.1帧定位字A1A2

SDH传输设备主要凭借着A1A2字节来对帧的起始位置加以判断,如果收端共达到五帧之多,那么,所获得的A1A2字节就会存在错误性,致使收端在一种帧失状态下,进而产生了帧失步告警-OOF;OOF持续三秒后处于帧失状态,设备发出了

上一篇:告警平台是什么(什么是告警服务?)
下一篇:SAP Solution Manager主要功能及相互联系
相关文章

 发表评论

暂时没有评论,来抢沙发吧~