告警根因分析组件（故障根因分析）

来源网友投稿 556 2023-04-01

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本篇文章给大家谈谈告警根因分析组件，以及故障根因分析对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。今天给各位分享告警根因分析组件的知识，其中也会对故障根因分析进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、系统管理提供什么,日志管理和备份恢复功能。
2、根本原因分析（RCA）的常用工具有哪些？
3、MySQL数据库的警告问题，怎么解决
4、如何快速、灵活的实现告警通知，第一时间解决问题？

系统管理提供什么,日志管理和备份恢复功能。

5G 网管具备以下优点：
（1）Web 方式的用户界面。
（2）统一的网络管理（如 4G / 5G 融合）。
（3）网络智能分析。
（4）开放的 API 接口。
（5）虚拟化部署
SaaS：Software as a Service（软件即服务）。
PaaS：Platform as a service（平台即服务）。
IaaS：Infrastructure as a service（基础设施即服务）。
5G 网管软硬件组成：
底层采用服务器提供基础的 CPU、内存、存储等物理资源，通过平台抽取具体资源形成虚拟网管平台，然后向高层提供网管功能，包括系统管理、自运维管理、智能运维管理和无线应用等 APP 功能，客户端可远程接入 5G 网管。
5G 网管系统组件包括：
（1）系统管理：提供安全管理、日志管理和备份恢复功能。
（2）自运维管理：提供应用性能管理。
（3）智能运维：提供告警根因分析、网络智能分析高级应用、开发自动化平台和全局策略管理。
（4）无线应用：提供数据采集、北向接口管理、网络智能分析、无线配置管理、无线网元
管理、无线网络运维监控、信令跟踪分析、网元开通升级中心和通用网元管理。
（5）公共应用：提供全网告警和拓扑管理。
5G 网管常用功能包括：
（1）任务说明：任务背景以及规划数据表。
（2）网络规划：规划数据表。
（3）工勘测量：模拟工程勘测及测量。
（4）设备安装：模拟硬件设备的安装。
（5）设备维护：进行数据配置，参数调整。
（6）业务验证：根据配置的数据进行业务的验证，完成任务。
任务二：配置数据
简述PnP开基站的基本流程。
第一步：确认传输是否开启DHCP relay功能。
第二步：UME网管版本入库。
第三步：UME网管前台配置制作
第四步：UME网管创建及启动开站任务，跟踪开站任务
第五步：前台上电
第六步：跟踪UME开站任务是否完成
常用参数：
（1）PLMN：公共陆地移动（通信）网络。
PLMN=MCC ＋ MNC
（2）PCI：物理小区 ID，取值范围为 0 ～ 1007
PCI=PSS ＋ 3SSS （PSS 取值为 0 ～ 2，SSS 取值为 0 ～ 335）
（3）SCTP 本端端口号 / 远端端口号：SCTP 协议端口号，本端端口号常用 38412，远端端口号常用 38422。
（4）中心频点：小区使用频点，确定小区的中心频率。
（5）频点带宽：小区带宽，FR1 频段的频率范围是 450 MHz ～ 6 GHz，又称为 sub 6 GHz频段。FR2 频段的频率范围是 24.25 ～ 52.6 GHz，通常被称为毫米波 (mmWave)。FR1 频段可使用的最大带宽是100MHz，FR2 频段可使用的最大带宽是 400 MHz。目前现网 5G 主要采用 30 kHz 子载波间隔，带宽是 100 MHz，实际配置根据 5G 场景确定。
（6）每 10 ms 下行资源占比：下行在整个无线帧中所占的比例。与帧结构、符号配比有关。
（7）TAC 跟踪区：有 AMF 分配，若干个小区组成一个 TAC，是寻呼的基本范围。
（8）小区标识：取值为 0 ～ 255，一个基站中的小区 ID 不重复，由集团统一规划。
数据配置：
1．全局参数：
“MCC”：移动国家码，全球唯一。中国为 460。
“MNC”：移动网络码。各国内运营商唯一，如中国移动为 00。
“OMC 服务器地址”：服务器地址，根据实际的服务器地址填写。
“OMC 前缀长度”：按照网络规划填写。
“SNTP 服务器 IP 地址”：SNTP 服务器用来做时间同步，一般运营商省公司会有 SNTP 服务器。
“时区”：东八区。
站点配置参数：
“子网 ID”：根据规划填写。
“网元 ID”：根据规划填写，网元 ID 不能重复。
“基站名称”：基站名称不是必配的，可以人为规划。
“网元模型类型”：CUDU，唯一值。
“网元 IP 地址”：基站网元地址，该地址用于和网管通信。
3.传输网络配置：
“网元 IP 地址”：根据规划填写。
“IP 前缀”：根据规划填写。
“IP 网关地址”：根据规划填写。
“IP层使用的VLAN标识”：用来隔离IP层，如果配置多个IP，那么VLAN也需要多个（比如把网管 IP 和业务 IP 分开）。
“偶联号”：根据规划填写。
“SCTP 本端端口号 / 远端端口号”：全网常用的是 38412。
“本端地址 / 远端地址”：根据规划填写。本端地址是网元 IP 地址，远端地址是核心网
AMF 的 IP 地址。
“静态路由配置（目的 IP 地址）”：该地址是核心网 AMF 的 IP 地址。
“静态路由配置（静态路由前缀长度）”：根据规划填写。
“静态路由”：核心网远端 IP 地址和网关不是同一个网段时，需要配置成和远端地址同
一个网段，否则不通。
4.小区配置：
“小区标识”：唯一小区标识，按规划填写。一般由集团统一规划。
“物理小区识别码”：PCI 取值范围为 0 ～ 1007。复用举例内不能重复出现，相邻小区 PCI mod 3 不相等。
“跟踪区码”：一个 AMF 内唯一，由核心网规划。
“频段指示”：指示小区所使用的频段。
“频点带宽”：指示小区带宽。
“切片业务类型”：根据场景配置。
“切片分区”：根据业务填写。
任务三：业务调测
当完成 5G 数据配置之后，如何判断 5G 数据配置是否正确，5G 基站是否能正常开通。这就需要进行业务调测，测试业务能否正常运行，从而判断 5G 基站是否正常开通。
问题 1：什么是 eMBB ？主要用在什么场景？
答：eMBB 是增强型移动带宽。eMBB 主要是服务于消费互联网，如 AR/VR、高清视频直
播、8K 高清等。对网络的速率要求高，需要大带宽的支持。
问题 2：什么是 uRLLC ？主要用在什么场景？
答：uRLLC 是低时延高可靠通信。uRLLC 主要场景，如车联网、无人机、工业控制，远程医疗等。对网络的低时延和可靠性的要求均高。
问题 3：什么是 mMTC ？主要用在什么场景？
答：大规模机器连接。mMTC主要是服务于物联网，如：智慧城市（水表，电表，气表，路灯，红绿灯），智能家居（烟感，灯，门锁，家电），智能农业等。
学生需要知道什么场景使用哪一种验证，很关键。
eMBB验证操作：
uRLLC验证操作：
5g
人工智能
大数据

点赞文章给优秀博主打call~
高清播放机，图片大全，点击查看详情！
精选推荐
广告

LTE开站流程
35下载·1评论
2013年8月7日
华为5G基站概述及基本操作.pdf
30下载·0评论
2021年2月7日
5G缩略语 (TS38.101/104/211/212/213/214/300)
4013阅读·0评论·4点赞
2019年3月26日
移动4g华为lte站点故障处理实战手册.docx
0下载·0评论
2020年11月25日
OMC-V3版 Modbus地址功能对应表新(2).zip
3下载·0评论
2019年9月7日
5G基站邻区规划
974阅读·0评论·1点赞
2022年5月18日
你看见在哪个播放器能看？

精选推荐
广告
【通信工程】大三下课程设计-5G核心网功能设计与部署
990阅读·0评论·2点赞
2022年9月24日
智能运维平台包括哪些功能？运维平台有哪些功能模块？
657阅读·0评论·0点赞
2022年10月20日
31省 “5G基建+5G应用”实施路径！（最全汇总）
782阅读·1评论·0点赞
2021年6月4日
amf组网_【5G核心网】5G核心网SA组网方案及4G/5G互操作探讨
2.8W阅读·0评论·1点赞
2021年1月9日
Arduino的软件：Arduino IDE和Mind+图形化编程
2555阅读·0评论·1点赞
2022年8月28日
[4G5G专题-75]：流程 - 4G LTE无线接入网中运营商标识、基站标识、终端标识大全
3754阅读·0评论·5点赞
2021年5月2日
SqlPLus简介
4072阅读·1评论·0点赞
2010年11月14日
PLMN各种类型的含义及说明
1647阅读·0评论·0点赞
2020年7月13日
常见各种PLMN的含义（RPLMN,HPLMN...）以及自动选网原则
2.9W阅读·0评论·11点赞
2015年11月17日
1.springboot使用入门
85阅读·0评论·0点赞
2020年11月4日
volte信令流程详解_点点滴滴学5G——SA注册流程详解
890阅读·0评论·2点赞
2020年11月28日
去首页
看看更多热门内容

根本原因分析（RCA）的常用工具有哪些？

根本原因分析的常用工具如下：
头脑风暴：当您有一系列选项时，这是一个很好的工具。为团队中的其他人创造一个安全的参与空间，也将培养团队成员的士气。头脑风暴也是一种节省时间的方法，因为在整个团队的参与下，您的想法列表将快速增长。
鱼骨图：这是一种用于查找根本原因的非凡工具。使用鱼骨图，你可以分解原因及其影响，并直观清晰地看到。这是一种在将问题按症状分解成小块后研究问题的方法。
5个为什么：该工具通常用于DMAIC模板的分析阶段。该工具的使用方式非常简单。基本上，你一直问为什么，直到你对答案满意为止。至少可以说，这个工具非常具有互动性和创造性，但是必须有数据才能使其工作。
这些工具之所以能够工作，是因为有数据支持它。没有什么是偶然的。随着持续改进的不断监控，数据应该始终触手可及。

MySQL数据库的警告问题，怎么解决

‍测试环境中出现了一个异常的告警现象：一条告警通过 Thanos Ruler 的 HTTP 接口观察到持续处于 active 状态，但是从 AlertManager 这边看这条告警为已解决状态。按照 DMP 平台的设计，告警已解决指的是告警上设置的结束时间已经过了当前时间。一条发送至 AlertManager 的告警为已解决状态有三种可能：1. 手动解决了告警2. 告警只产生了一次，第二次计算告警规则时会发送一个已解决的告警3. AlertManager 接收到的告警会带着一个自动解决时间，如果还没到达自动解决时间，则将该时间重置为 24h 后首先，因为了解到测试环境没有手动解决过异常告警，排除第一条；其次，由于该告警持续处于 active 状态，所以不会是因为告警只产生了一次而接收到已解决状态的告警，排除第二条；最后，告警的告警的产生时间与自动解决时间相差不是 24h，排除第三条。那问题出在什么地方呢？

分析

下面我们开始分析这个问题。综合第一节的描述，初步的猜想是告警在到达 AlertManager 前的某些阶段的处理过程太长，导致告警到达 AlertManager 后就已经过了自动解决时间。我们从分析平台里一条告警的流转过程入手，找出告警在哪个处理阶段耗时过长。首先，一条告警的产生需要两方面的配合：

metric 数据

告警规则

将 metric 数据输入到告警规则进行计算，如果符合条件则产生告警。DMP 平台集成了 Thanos 的相关组件，数据的提供和计算则会分开，数据还是由 Prometheus Server 提供，而告警规则的计算则交由 Thanos Rule（下文简称 Ruler）处理。下图是 Ruler 组件在集群中所处的位置：

看来，想要弄清楚现告警的产生到 AlertManager 之间的过程，需要先弄清除 Ruler 的大致机制。官方文档对 Ruler 的介绍是：You can think of Rule as a simplified Prometheus that does not require a sidecar and does not scrape and do PromQL evaluation (no QueryAPI)。

不难推测，Ruler 应该是在 Prometheus 上封装了一层，并提供一些额外的功能。通过翻阅资料大致了解，Ruler 使用 Prometheus 提供的库计算告警规则，并提供一些额外的功能。下面是 Ruler 中告警流转过程：

请点击输入图片描述

首先，图中每个告警规则 Rule 都有一个 active queue（下面简称本地队列），用来保存一个告警规则下的活跃告警。

其次，从本地队列中取出告警，发送至 AlertManager 前，会被放入 Thanos Rule Queue（下面简称缓冲队列），该缓冲队列有两个属性：

capacity（默认值为 10000）：控制缓冲队列的大小，

maxBatchSize（默认值为 100）：控制单次发送到 AlertManager 的最大告警数

了解了上述过程，再通过翻阅 Ruler 源码发现，一条告警在放入缓冲队列前，会为其设置一个默认的自动解决时间（当前时间 + 3m），这里是影响告警自动解决的开始时间，在这以后，有两个阶段可能影响告警的处理：1. 缓冲队列阶段2. 出缓冲队列到 AlertManager 阶段（网络延迟影响）由于测试环境是局域网环境，并且也没在环境上发现网络相关的问题，我们初步排除第二个阶段的影响，下面我们将注意力放在缓冲队列上。通过相关源码发现，告警在缓冲队列中的处理过程大致如下：如果本地队列中存在一条告警，其上次发送之间距离现在超过了 1m（默认值，可修改），则将该告警放入缓冲队列，并从缓冲队列中推送最多 maxBatchSize 个告警发送至 AlertManager。反之，如果所有本地队列中的告警，在最近 1m 内都有发送过，那么就不会推送缓冲队列中的告警。也就是说，如果在一段时间内，产生了大量重复的告警，缓冲队列的推送频率会下降。队列的生产方太多，消费方太少，该队列中的告警就会产生堆积的现象。因此我们不难猜测，问题原因很可能是是缓冲队列推送频率变低的情况下，单次推送的告警数量太少，导致缓冲队列堆积。下面我们通过两个方面验证上述猜想：首先通过日志可以得到队列在大约 20000s 内推送了大约 2000 次，即平均 10s 推送一次。结合缓冲队列的具体属性，一条存在于队列中的告警大约需要 (capacity/maxBatchSize)*10s = 16m，AlertManager 在接收到告警后早已超过了默认的自动解决时间（3m）。其次，Ruler 提供了 3 个 metric 的值来监控缓冲队列的运行情况：

thanos_alert_queue_alerts_dropped_total

thanos_alert_queue_alerts_pushed_total

thanos_alert_queue_alerts_popped_total

通过观察 thanos_alert_queue_alerts_dropped_total 的值，看到存在告警丢失的总数，也能佐证了缓冲队列在某些时刻存在已满的情况。

解决通过以上的分析，我们基本确定了问题的根源：Ruler 组件内置的缓冲队列堆积造成了告警发送的延迟。针对这个问题，我们选择调整队列的 maxBatchSize 值。下面介绍一下这个值如何设置的思路。由于每计算一次告警规则就会尝试推送一次缓冲队列，我们通过估计一个告警数量的最大值，得到 maxBatchSize 可以设置的最小值。假设你的业务系统需要监控的实体数量分别为 x1、x2、x3、...、xn，实体上的告警规则数量分别有 y1、y2、y3、...、yn，那么一次能产生的告警数量最多是(x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn)，最多推送（y1 + y2 + y3 + ... + yn）次，所以要使缓冲队列不堆积，maxBatchSize 应该满足：maxBatchSize = (x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn) / (y1 + y2 + y3 + ... + yn)，假设 x = max(x1,x2, ...,xn), 将不等式右边适当放大后为 x，即 maxBatchSize 的最小值为 x。也就是说，可以将 maxBatchSize 设置为系统中数量最大的那一类监控实体，对于 DMP 平台，一般来说是 MySQL 实例。

注意事项

上面的计算过程只是提供一个参考思路，如果最终计算出该值过大，很有可能对 AlertManager 造成压力，因而失去缓冲队列的作用，所以还是需要结合实际情况，具体分析。因为 DMP 将 Ruler 集成到了自己的组件中，所以可以比较方便地对这个值进行修改。如果是依照官方文档的介绍使用的 Ruler 组件，那么需要对源码文件进行定制化修改。

‍‍

如何快速、灵活的实现告警通知，第一时间解决问题？

数据中心产生告警噪音，一般由两个大的原因所引起：1、存在大量重复的告警：大多数监控系统关注的点在快速、无遗漏地将异常告警抛出。2、大量的告警因为服务组件之间的相互依赖关系、相互影响，而产生的大量的关联告警。
所以，在告警发生的时候，可以使用告警优先级推荐算法来分析处理问题。根据规律特征进行判别，看是否需要立即关注。再配合自动化工具，将推荐等级与原始等级都高的告警加上筛选规则，进行自动化开单处置。发现推荐等级与原始等级有背离的部分，可以筛选出来做复盘，对告警原始的等级进行优化，或者转化成升降级的规则逻辑来处置告警等级。擎创告警辨析中心4.0是擎创科技研发的新一代智能告警管理、分析及处置平台，可配置能力更成熟，具有更开放的集成能力，可以将数据中心的监控系统、ITSM流程平台系统、自动化引擎系统、知识库系统、通知类平台等系统无缝集成，并驱动整个数据中心运维体系更快、更智能、更流畅运行。不仅可以满足科技能力及数据治理较强的企业需求，同时也可以通过智能化手段满足科技及数据治理较差企业的需求。

告警根因分析组件（故障根因分析）

关于告警根因分析组件和故障根因分析的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。告警根因分析组件的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于故障根因分析、告警根因分析组件的信息别忘了在本站进行查找喔。

标签：告警系统告警管理方法告警通知

暂时没有评论，来抢沙发吧~

告警根因分析组件（故障根因分析）

系统管理提供什么,日志管理和备份恢复功能。

根本原因分析（RCA）的常用工具有哪些？

MySQL数据库的警告问题，怎么解决

如何快速、灵活的实现告警通知，第一时间解决问题？

实时警报通知：微信告警通知的重要性解析

告警通知变得轻松便捷——微信告警接口指南

睿象云智能告警平台的分派策略