告警根因分析(告警根因分析算法)

来源网友投稿 768 2023-04-01

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈告警根因分析,以及告警根因分析算法对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享告警根因分析的知识,其中也会对告警根因分析算法进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

BFD告警是什么原因引起的,怎么解决?

勾上 in use,只是打开了BFD告警,跟FE能否上网没关系,他只是一个告警。我们通过命令设定一个时间间隔和最大丢包数。在这个时间间隔内,如果丢包数大于设定的那个数,就会出现BFD告警。它的直接表现现象为上网出现闪断。其实在现实中我们设置的那个时间间隔很短,有时即使出现了BFD告警,用户根本察觉也不到。出现这种情况一般是网线头做的有问题,重做一般就可以解决。

华为设备有如下告警,期间并没有修改配置,请分析大概是什么原因

磁盘空间告警
告警信息:IGWB介质空间不足。
告警分析:主用IGWB在剩余磁盘空间小于15%的时候就会出磁盘空间告警,省公司要求话单保存时间:原始话单15天(D盘),格式转换后的话单15天(E盘),最终话单90天。
告警处理:删除部分格式转换后的话单(E:\backsave\Second\X3KM\),剪切部分最终话单到应急工作站(暂时),建议增加IGWB硬盘空间。
02备用IGWB磁盘空间不足
故障现象:备用IGWB磁盘空间不足
故障分析:备用IGWB是实现话单双备份的组成,并且如果备用IGWB磁盘剩余空间过小,主用IBWG异常的时候将无法倒换。
故障处理:清理备用IGWB磁盘空间。
03单板故障
告警信息:例如WSMU 板故障、单板CPU自检故障。
告警分析:无
告警处理:1.复位 2.拔插 3.更换
04电源故障
告警信息:-48V 电压过高告警。
告警分析:
告警产生原因:
· 动力进行例行放电测试,致电压临时过高
· 电压已恢复正常,但告警未自动消除,出现假告警
· 电压过高导致。根据指令DSP PDB可以查询到系统的电压正常范围是-42V~-57V,经常观察如果电压过高后,告警会在电压降到-54V的时候消除。如果告警长时间未自动恢复,可以用万用表测电压,看是否在正常范围内,如果电压已正常,可以手动把电压的门限值进行调高,使告警恢复后再把门限值调到正常范围内。
告警处理:
1.联系动力专业,确认是否在进行电池放电测试。如是,在测试完成后观察告警是否消除
2. 根据指令DSP PDB可以查询到系统的电压正常范围是-42V~-57V,经常观察如果电压过高后,告警会在电压降到-54V的时候消除。如果告警长时间未自动恢复,可以用万用表测电压,看是否在正常范围内,如果电压已正常,可以手动把电压的门限值进行调高,使告警恢复后再把门限值调到正常范围内。(现在配电框监控板默认的告警上限目前定义为57V,产品设置时,可在此基础上加3V,设置为60V比较合适。
MSOFTX3000可以通过软调修改电压告警上限。
软调命令如下:
STR SFTD: LT=MN, MN=2, PID="166", CTRL="36", PM0="1", PM1="60", PM2="42";
STR SFTD: LT=MN, MN=2, PID="166", CTRL="36", PM0="2", PM1="60", PM2="42";)
3.观察一段时间,如告警不会自动恢复就联系动力室处理。
05IGWB倒换
告警信息:iGWB双机倒换
告警分析:双机倒换通常是主用IGWB异常引起,可能原因:磁盘空间不足,重要目录被改动,网络故障,进程异常。
告警处理:清理磁盘空间,恢复被改动目录,检查处理网络,重启IGWB进程。
06传输故障
告警信息:E1端口故障或信号丢失。
告警分析:无
告警处理:自环检测,通过LOP E1对本端端口进行软件环回,如正常则表示单板端口硬件正常,再在各段DDF架端进行环回测试,逐段排除线缆原因,如是本端问题则重做线缆接口、换线或者换板,如是传输问题则转传输室处理。
07IGWB内存过载
告警信息:iGWB 内存过载。
告警分析:IGWB上运行的主要进程有om_proc.exe,ap_proc.exe,cfg_proc.exe,cls_proc.exe,knl_proc.exe。主要检查这些进程有没有大量占用内存空间。现在SZS09,SZS12的om_proc.exe进程占用大量内存不释放。
告警处理:暂时的处理办法是重启om_proc.exe,最终解决方法等待华为工程师补丁解决。
08IGWB备份失败
告警信息:iGWB备份连接失败。
告警分析:IGWB备份有两份,都是从主用IGWB以FTP方式备份到备用IGWB。一份保存在备机的E:\billforbs,保存1000个文件,通过smartback实现;一份保存在E:\ finabill_bak,保存时间为90天,通过igwb.ini文件的配置信息实现。
告警处理:检查smartback备份的路径和用户名密码是否正确;重启smartback软件;重启IGWB进程。
09网络故障
告警信息:BAM到主机连接中断、TCP链路故障。
告警分析:故障可能原因lanswitch异常,网口松动,网卡运行异常。
告警处理:拔插BAM主机网线,拔插lanswitch端口网线,禁用启用网卡,重启BAM。
10MTP、SCCP、M3UA故障
告警信息:M3UA路由传输禁止 路由不可用;MTP链路故障/MTP 链路定位失败;SCCP目的信令点禁止。
告警分析:故障可能原因传输故障引起,配置数据变更,链路负荷过高。
告警处理:检查传输,检查数据配置信息,检查是否为垃圾数据产生的告警。
11话单文件校验错误或话单文件丢失
告警信息:无
告警分析:可能是话单文件传送到计费中心出错,需要重传计费文件
告警处理:重传相应计费文件
12更换单板时程序加载不成功
告警信息:单板程序加载不成功
告警分析:可能原因:1.单板加载软开关未打开.2. 加载文件丢失
告警处理:1.通过MOD LSS修改单板加载软开关,设置为”程序不可用,数据不可用 ,数据可写, 程序可写”,加载完成修改为” 程序可用,数据可用,数据可写,程序不可写”
2.主机加载文件都存于BAM的D:/data 目录下,在此目录下查找所要加载的单板的程序文件,如未找到,说明文件因其他原因丢失,通过在其他同类型同版本局上能找到该单板的程序文件,将文件拷贝至该目录下,重新复位加载单板。
13硬盘故障
故障现象:故障磁盘灯亮红灯。
故障分析:华为软交换的硬盘都采用磁盘阵列方式对数据进行保护,硬盘支持热拔插,坏一块磁盘不影响系统运行,但是要尽快安排更换。
故障处理:更换硬盘。
14主机时间偏差
故障现象:检查主机系统时间发现网元的主机时间和北京时间相差较大。
故障分析:主机系统时间就是话单产生时间,华为认为偏差在正负5秒是正常的,超过这个范围需要校正。
故障处理:主机时间和BAM时间同步,更正其中一个就可以达到校正的目的。可以通过DSP TIME查看系统时间,通过指令SET TIME修改,或者直接改BAM的系统时间。
15CRC校验错误
故障现象:CRC校验错误告警。
故障分析:交换机数据与BAM机数据不一致,可能是由于工程引起的故障。
故障处理:通过SND SPD指令对校验出错的数据表进行强制发送,再次执行STR CRC进行CRC校验
以上,就是给大家整理的华为设备故障分析与排除方法,希望对你能有所启发。

相比传统运维工具,AIOps的优势在哪里

所谓的AIOps,简单理解就是基于自动化运维,将AI和运维很好的结合起来。

AIOps的落地在多方面直击传统运维的痛点,AI算法承担起分析海量运维数据的重任,能够自动、准确地发现和定位问题,从决策层面提高运营效率,为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。

可见,AIOps 在企业中的作用正在进一步放大。但事实上,很多企业对于AIOps 能解决什么问题并不清晰,今天我们就以博睿数据的AIOps 的三大场景和算法说起。

博睿数据的AIOps 实践

作为中国领先的智能可观测平台,在AIOps实践方面,多年来博睿数据积极拥抱人工智能、机器学习等新技术变革的浪潮,并基于AI和机器学习技术,自主研发了“数据接入、处理、存储与分析技术”核心技术体系,全面布局智能基线、异常检测、智能告警、关联分析、根因分析等丰富且广泛的智能运维功能,并将AIOps能力融入端到端全栈监控产品线,可为传统企业提供强大的数据处理、存储和分析的软件工具,帮助客户整合各类IT运维监控数据,实现数据的统一存储和关联分析,打破数据孤岛,构建统一的IT运维管理平台,让企业的IT运维更加智能化、自动化。

在此基础上,博睿数据还依托完整的IT运维监控能力,利用大数据和机器学习技术持续构建先进的智能运维监控产品,2021年先后推出了搭载了AI能力的新一代APM产品Server7.0和新版的统一智能运维平台Dataview,不断落地智能异常检测、根因分析、故障预测等场景。基于人工智能的能力实现运维监控场景的信息整合、特征关联和业务洞察,帮助企业确保数字化业务平稳运行,并保障良好的数字化体验。

目前,博睿数据在AIOps 技术方面主要落地了三大场景。即智能基线预测、异常检测及告警收敛。

随着企业业务规模扩大,云原生与微服务的兴起,企业IT架构复杂性呈现指数级增长。而传统的IT运维手段面临故障发生后,查找故障原因困难,故障平均修复时间周期长,已无法满足新的运维要求。因此运用人工智能赋能运维,去取代缓慢易错的人力决策,快速给出运维决策建议,降低问题的影响并提前预警问题就成为了必然。AIOps作为目前运维发展的最高阶目标,未来将会赋能运维带给用户全新的体验。

但需要注意的是,当前智能运维的很多产品和项目在企业侧落地效果并不理想,究其原因可归类为三点:一是数据采集与AI平台割裂,多源数据之间的关联关系缺失导致AI平台缺乏高质量的数据,进而导致模型训练效果不佳;二是数据采集以metric和log为主,导致应用场景较窄且存在数据孤岛问题;三是AI平台能力尚有提升空间。当前落地的场景多以异常检测与智能告警为主,未来需要进一步提升根因分析与故障预测的能力。

因此,未来企业首先要建设一体化监控运维平台,一体化是智能化的基础。基于一体化监控运维平台采集的高质量的可观测数据数据以及数据之间的关联关系,进一步将AIOps的能力落地到一体化监控运维平台中,从而实现问题精准定位与见解能力。

此外,在实际应用中,依据信通院的相关调查,其受访企业中只有不足20%的企业具有智能化监控和运维决策能力,超过70%的企业在应用系统出现故障的10分钟内一筹莫展。

各行业的数字化转型正在改变这一现状,不仅互联网企业,更多传统企业的数字化转型为智能运维开拓了更广阔的市场,智能运维有着巨大的发展空间,这也是博睿数据等行业领先企业发力的大好时机。

提升创新能力,推广智能运维不仅是相关服务商自身发展的要求,也是提升我国企业应用管理和运维水平的使命。

中国企业数字化转型加速,无论是前端的应用服务迭代更新,还是后端IT运维架构的复杂度提升,都在加速培育智能运维的成长。

关于告警根因分析和告警根因分析算法的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 告警根因分析的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于告警根因分析算法、告警根因分析的信息别忘了在本站进行查找喔。
上一篇:北京瑞宁:全面审计 让IT运维管理更轻松
下一篇:MySQL:删除操作Delete、Truncate、Drop用法比较
相关文章

 发表评论

暂时没有评论,来抢沙发吧~