告警根因分析组件(故障根因分析)

来源网友投稿 556 2023-04-01

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈告警根因分析组件,以及故障根因分析对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享告警根因分析组件的知识,其中也会对故障根因分析进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

系统管理提供什么,日志管理和备份恢复功能。

5G 网管具备以下优点:
(1)Web 方式的用户界面。
(2)统一的网络管理(如 4G / 5G 融合)。
(3)网络智能分析。
(4)开放的 API 接口。
(5)虚拟化部署
SaaS:Software as a Service(软件即服务)。
PaaS:Platform as a service(平台即服务)。
IaaS:Infrastructure as a service(基础设施即服务)。
5G 网管软硬件组成:
底层采用服务器提供基础的 CPU、内存、存储等物理资源,通过平台抽取具体资源形成 虚拟网管平台,然后向高层提供网管功能,包括系统管理、自运维管理、智能运维管理和无线 应用等 APP 功能,客户端可远程接入 5G 网管。
5G 网管系统组件包括:
(1)系统管理:提供安全管理、日志管理和备份恢复功能。
(2)自运维管理:提供应用性能管理。
(3)智能运维:提供告警根因分析、网络智能分析高级应用、开发自动化平台和全局策略管理。
(4)无线应用:提供数据采集、北向接口管理、网络智能分析、无线配置管理、无线网元
管理、无线网络运维监控、信令跟踪分析、网元开通升级中心和通用网元管理。
(5)公共应用:提供全网告警和拓扑管理。
5G 网管常用功能包括:
(1)任务说明:任务背景以及规划数据表。
(2)网络规划:规划数据表。
(3)工勘测量:模拟工程勘测及测量。
(4)设备安装:模拟硬件设备的安装。
(5)设备维护:进行数据配置,参数调整。
(6)业务验证:根据配置的数据进行业务的验证,完成任务。
任务二:配置数据
简述PnP开基站的基本流程。
第一步:确认传输是否开启DHCP relay功能。
第二步:UME网管版本入库。
第三步:UME网管前台配置制作
第四步:UME网管创建及启动开站任务,跟踪开站任务
第五步:前台上电
第六步:跟踪UME开站任务是否完成
常用参数:
(1)PLMN:公共陆地移动(通信)网络。
PLMN=MCC + MNC
(2)PCI:物理小区 ID,取值范围为 0 ~ 1007
PCI=PSS + 3SSS (PSS 取值为 0 ~ 2,SSS 取值为 0 ~ 335)
(3)SCTP 本端端口号 / 远端端口号:SCTP 协议端口号,本端端口号常用 38412,远端端 口号常用 38422。
(4)中心频点:小区使用频点,确定小区的中心频率。
(5)频点带宽:小区带宽,FR1 频段的频率范围是 450 MHz ~ 6 GHz,又称为 sub 6 GHz频段。FR2 频段的频率范围是 24.25 ~ 52.6 GHz,通常被称为毫米波 (mmWave)。FR1 频段可使用的最大带宽是100MHz,FR2 频段可使用的最大带宽是 400 MHz。目前现网 5G 主要采用 30 kHz 子载波间隔,带宽是 100 MHz,实际配置根据 5G 场景确定。
(6)每 10 ms 下行资源占比:下行在整个无线帧中所占的比例。与帧结构、符号配比有关。
(7)TAC 跟踪区:有 AMF 分配,若干个小区组成一个 TAC,是寻呼的基本范围。
(8)小区标识:取值为 0 ~ 255,一个基站中的小区 ID 不重复,由集团统一规划。
数据配置:
1.全局参数:
“MCC”:移动国家码,全球唯一。中国为 460。
“MNC”:移动网络码。 各国内运营商唯一,如中国移动为 00。
“OMC 服务器地址”:服务器地址,根据实际的服务器地址填写。
“OMC 前缀长度”:按照网络规划填写。
“SNTP 服务器 IP 地址”:SNTP 服务器用来做时间同步,一般运营商省公司会有 SNTP 服务器。
“时区”:东八区。
站点配置参数:
“子网 ID”:根据规划填写。
“网元 ID”:根据规划填写,网元 ID 不能重复。
“基站名称”:基站名称不是必配的,可以人为规划。
“网元模型类型”:CUDU,唯一值。
“网元 IP 地址”:基站网元地址,该地址用于和网管通信。
3.传输网络配置:
“网元 IP 地址”:根据规划填写。
“IP 前缀”:根据规划填写。
“IP 网关地址”:根据规划填写。
“IP层使用的VLAN标识”:用来隔离IP层,如果配置多个IP,那么VLAN也需要多个(比 如把网管 IP 和业务 IP 分开)。
“偶联号”:根据规划填写。
“SCTP 本端端口号 / 远端端口号”:全网常用的是 38412。
“本端地址 / 远端地址”:根据规划填写。本端地址是网元 IP 地址,远端地址是核心网
AMF 的 IP 地址。
“静态路由配置(目的 IP 地址)”:该地址是核心网 AMF 的 IP 地址。
“静态路由配置(静态路由前缀长度)”:根据规划填写。
“静态路由”:核心网远端 IP 地址和网关不是同一个网段时,需要配置成和远端地址同
一个网段,否则不通。
4.小区配置:
“小区标识”:唯一小区标识,按规划填写。一般由集团统一规划。
“物理小区识别码”:PCI 取值范围为 0 ~ 1007。复用举例内不能重复出现,相邻小区 PCI mod 3 不相等。
“跟踪区码”:一个 AMF 内唯一,由核心网规划。
“频段指示”:指示小区所使用的频段。
“频点带宽”:指示小区带宽。
“切片业务类型”:根据场景配置。
“切片分区”:根据业务填写。
任务三:业务调测
当完成 5G 数据配置之后,如何判断 5G 数据配置是否正确,5G 基站是否能正常开通。这 就需要进行业务调测,测试业务能否正常运行,从而判断 5G 基站是否正常开通。
问题 1:什么是 eMBB ?主要用在什么场景?
答:eMBB 是增强型移动带宽。eMBB 主要是服务于消费互联网,如 AR/VR、高清视频直
播、8K 高清等。对网络的速率要求高,需要大带宽的支持。
问题 2:什么是 uRLLC ?主要用在什么场景?
答:uRLLC 是低时延高可靠通信。uRLLC 主要场景,如车联网、无人机、 工业控制,远程医疗等。对网络的低时延和可靠性的要求均高。
问题 3:什么是 mMTC ?主要用在什么场景?
答:大规模机器连接。mMTC主要是服务于物联网,如:智慧城市(水表,电表,气表,路灯,红绿灯),智能家居(烟感,灯,门锁,家电),智能农业等。
学生需要知道什么场景使用哪一种验证,很关键。
eMBB验证操作:
uRLLC验证操作:
5g
人工智能
大数据


点赞文章给优秀博主打call~
高清播放机,图片大全,点击查看详情!
精选推荐
广告

LTE开站流程
35下载·1评论
2013年8月7日
华为5G基站概述及基本操作.pdf
30下载·0评论
2021年2月7日
5G缩略语 (TS38.101/104/211/212/213/214/300)
4013阅读·0评论·4点赞
2019年3月26日
移动4g华为lte站点故障处理实战手册.docx
0下载·0评论
2020年11月25日
OMC-V3版 Modbus地址功能对应表新(2).zip
3下载·0评论
2019年9月7日
5G基站邻区规划
974阅读·0评论·1点赞
2022年5月18日
你看见在哪个播放器能看?

精选推荐
广告
【通信工程】大三下课程设计-5G核心网功能设计与部署
990阅读·0评论·2点赞
2022年9月24日
智能运维平台包括哪些功能?运维平台有哪些功能模块?
657阅读·0评论·0点赞
2022年10月20日
31省 “5G基建+5G应用”实施路径!(最全汇总)
782阅读·1评论·0点赞
2021年6月4日
amf组网_【5G核心网】5G核心网SA组网方案及4G/5G互操作探讨
2.8W阅读·0评论·1点赞
2021年1月9日
Arduino的软件:Arduino IDE和Mind+图形化编程
2555阅读·0评论·1点赞
2022年8月28日
[4G5G专题-75]:流程 - 4G LTE无线接入网中运营商标识、基站标识、终端标识大全
3754阅读·0评论·5点赞
2021年5月2日
SqlPLus简介
4072阅读·1评论·0点赞
2010年11月14日
PLMN各种类型的含义及说明
1647阅读·0评论·0点赞
2020年7月13日
常见各种PLMN的含义(RPLMN,HPLMN...)以及自动选网原则
2.9W阅读·0评论·11点赞
2015年11月17日
1.springboot使用入门
85阅读·0评论·0点赞
2020年11月4日
volte信令流程详解_点点滴滴学5G——SA注册流程详解
890阅读·0评论·2点赞
2020年11月28日
去首页
看看更多热门内容

根本原因分析(RCA)的常用工具有哪些?

根本原因分析的常用工具如下:
头脑风暴:当您有一系列选项时,这是一个很好的工具。为团队中的其他人创造一个安全的参与空间,也将培养团队成员的士气。头脑风暴也是一种节省时间的方法,因为在整个团队的参与下,您的想法列表将快速增长。
鱼骨图:这是一种用于查找根本原因的非凡工具。使用鱼骨图,你可以分解原因及其影响,并直观清晰地看到。这是一种在将问题按症状分解成小块后研究问题的方法。
5个为什么:该工具通常用于DMAIC模板的分析阶段。该工具的使用方式非常简单。基本上,你一直问为什么,直到你对答案满意为止。至少可以说,这个工具非常具有互动性和创造性,但是必须有数据才能使其工作。
这些工具之所以能够工作,是因为有数据支持它。没有什么是偶然的。随着持续改进的不断监控,数据应该始终触手可及。

MySQL数据库的警告问题,怎么解决

‍测试环境中出现了一个异常的告警现象:一条告警通过 Thanos Ruler 的 HTTP 接口观察到持续处于 active 状态,但是从 AlertManager 这边看这条告警为已解决状态。按照 DMP 平台的设计,告警已解决指的是告警上设置的结束时间已经过了当前时间。一条发送至 AlertManager 的告警为已解决状态有三种可能:1. 手动解决了告警2. 告警只产生了一次,第二次计算告警规则时会发送一个已解决的告警3. AlertManager 接收到的告警会带着一个自动解决时间,如果还没到达自动解决时间,则将该时间重置为 24h 后首先,因为了解到测试环境没有手动解决过异常告警,排除第一条;其次,由于该告警持续处于 active 状态,所以不会是因为告警只产生了一次而接收到已解决状态的告警,排除第二条;最后,告警的告警的产生时间与自动解决时间相差不是 24h,排除第三条。那问题出在什么地方呢?

分析

下面我们开始分析这个问题。综合第一节的描述,初步的猜想是告警在到达 AlertManager 前的某些阶段的处理过程太长,导致告警到达 AlertManager 后就已经过了自动解决时间。我们从分析平台里一条告警的流转过程入手,找出告警在哪个处理阶段耗时过长。首先,一条告警的产生需要两方面的配合:

metric 数据

告警规则

将 metric 数据输入到告警规则进行计算,如果符合条件则产生告警。DMP 平台集成了 Thanos 的相关组件,数据的提供和计算则会分开,数据还是由 Prometheus Server 提供,而告警规则的计算则交由 Thanos Rule(下文简称 Ruler)处理。下图是 Ruler 组件在集群中所处的位置:

看来,想要弄清楚现告警的产生到 AlertManager 之间的过程,需要先弄清除 Ruler 的大致机制。官方文档对 Ruler 的介绍是:You can think of Rule as a simplified Prometheus that does not require a sidecar and does not scrape and do PromQL evaluation (no QueryAPI)。

不难推测,Ruler 应该是在 Prometheus 上封装了一层,并提供一些额外的功能。通过翻阅资料大致了解,Ruler 使用 Prometheus 提供的库计算告警规则,并提供一些额外的功能。下面是 Ruler 中告警流转过程:

请点击输入图片描述

请点击输入图片描述

首先,图中每个告警规则 Rule 都有一个 active queue(下面简称本地队列),用来保存一个告警规则下的活跃告警。

其次,从本地队列中取出告警,发送至 AlertManager 前,会被放入 Thanos Rule Queue(下面简称缓冲队列),该缓冲队列有两个属性:

capacity(默认值为 10000):控制缓冲队列的大小,

maxBatchSize(默认值为 100):控制单次发送到 AlertManager 的最大告警数

了解了上述过程,再通过翻阅 Ruler 源码发现,一条告警在放入缓冲队列前,会为其设置一个默认的自动解决时间(当前时间 + 3m),这里是影响告警自动解决的开始时间,在这以后,有两个阶段可能影响告警的处理:1. 缓冲队列阶段2. 出缓冲队列到 AlertManager 阶段(网络延迟影响)由于测试环境是局域网环境,并且也没在环境上发现网络相关的问题,我们初步排除第二个阶段的影响,下面我们将注意力放在缓冲队列上。通过相关源码发现,告警在缓冲队列中的处理过程大致如下:如果本地队列中存在一条告警,其上次发送之间距离现在超过了 1m(默认值,可修改),则将该告警放入缓冲队列,并从缓冲队列中推送最多 maxBatchSize 个告警发送至 AlertManager。反之,如果所有本地队列中的告警,在最近 1m 内都有发送过,那么就不会推送缓冲队列中的告警。也就是说,如果在一段时间内,产生了大量重复的告警,缓冲队列的推送频率会下降。队列的生产方太多,消费方太少,该队列中的告警就会产生堆积的现象。因此我们不难猜测,问题原因很可能是是缓冲队列推送频率变低的情况下,单次推送的告警数量太少,导致缓冲队列堆积。下面我们通过两个方面验证上述猜想:首先通过日志可以得到队列在大约 20000s 内推送了大约 2000 次,即平均 10s 推送一次。结合缓冲队列的具体属性,一条存在于队列中的告警大约需要 (capacity/maxBatchSize)*10s = 16m,AlertManager 在接收到告警后早已超过了默认的自动解决时间(3m)。其次,Ruler 提供了 3 个 metric 的值来监控缓冲队列的运行情况:

thanos_alert_queue_alerts_dropped_total

thanos_alert_queue_alerts_pushed_total

thanos_alert_queue_alerts_popped_total

通过观察 thanos_alert_queue_alerts_dropped_total 的值,看到存在告警丢失的总数,也能佐证了缓冲队列在某些时刻存在已满的情况。

解决通过以上的分析,我们基本确定了问题的根源:Ruler 组件内置的缓冲队列堆积造成了告警发送的延迟。针对这个问题,我们选择调整队列的 maxBatchSize 值。下面介绍一下这个值如何设置的思路。由于每计算一次告警规则就会尝试推送一次缓冲队列,我们通过估计一个告警数量的最大值,得到 maxBatchSize 可以设置的最小值。假设你的业务系统需要监控的实体数量分别为 x1、x2、x3、...、xn,实体上的告警规则数量分别有 y1、y2、y3、...、yn,那么一次能产生的告警数量最多是(x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn),最多推送(y1 + y2 + y3 + ... + yn)次,所以要使缓冲队列不堆积,maxBatchSize 应该满足:maxBatchSize = (x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn) / (y1 + y2 + y3 + ... + yn),假设 x = max(x1,x2, ...,xn), 将不等式右边适当放大后为 x,即 maxBatchSize 的最小值为 x。也就是说,可以将 maxBatchSize 设置为系统中数量最大的那一类监控实体,对于 DMP 平台,一般来说是 MySQL 实例。

注意事项

上面的计算过程只是提供一个参考思路,如果最终计算出该值过大,很有可能对 AlertManager 造成压力,因而失去缓冲队列的作用,所以还是需要结合实际情况,具体分析。因为 DMP 将 Ruler 集成到了自己的组件中,所以可以比较方便地对这个值进行修改。如果是依照官方文档的介绍使用的 Ruler 组件,那么需要对源码文件进行定制化修改。


‍‍

如何快速、灵活的实现告警通知,第一时间解决问题?

数据中心产生告警噪音,一般由两个大的原因所引起:1、存在大量重复的告警:大多数监控系统关注的点在快速、无遗漏地将异常告警抛出。2、大量的告警因为服务组件之间的相互依赖关系、相互影响,而产生的大量的关联告警。
所以,在告警发生的时候,可以使用告警优先级推荐算法来分析处理问题。根据规律特征进行判别,看是否需要立即关注。再配合自动化工具,将推荐等级与原始等级都高的告警加上筛选规则,进行自动化开单处置。发现推荐等级与原始等级有背离的部分,可以筛选出来做复盘,对告警原始的等级进行优化,或者转化成升降级的规则逻辑来处置告警等级。擎创告警辨析中心4.0是擎创科技研发的新一代智能告警管理、分析及处置平台,可配置能力更成熟,具有更开放的集成能力,可以将数据中心的监控系统、ITSM流程平台系统、自动化引擎系统、知识库系统、通知类平台等系统无缝集成,并驱动整个数据中心运维体系更快、更智能、更流畅运行。不仅可以满足科技能力及数据治理较强的企业需求,同时也可以通过智能化手段满足科技及数据治理较差企业的需求。

关于告警根因分析组件和故障根因分析的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 告警根因分析组件的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于故障根因分析、告警根因分析组件的信息别忘了在本站进行查找喔。
上一篇:开启这项功能 Windows 11游戏帧率最多下降28%
下一篇:云南电网:建设ITSM运维及系统推广初见成效
相关文章

 发表评论

暂时没有评论,来抢沙发吧~