多维度告警分析的研究方法,网络告警数据分析方法

4747 612 2023-07-06

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本文讲了多维度告警分析的研究方法,网络告警数据分析方法。

信息通信网络集中化运维已经成为网络管理的发展趋势,建立信息通信网络告警数据分析方法将有效推动网络运维体制的升级和优化。多维度信息通信网络告警数据分析方法阐述了网络告警与工单数据采集;探讨了网络告警数据分析方法;对网络告警数据分析的应用提出了几点建议。该方法有效推动集中故障运维管理背景下的网络质量管理常态化和网络运维流程智能化。

很多情境下,我们都会遇到收集的多维度的时序性的数据,比如运维中的主机各项指标数据,网页中的各项埋点数据等等。通常情况下通过某一指标上的时序预测结果与真实值的比较来判断这一指标是否稳定,这个常用方法的缺陷是只利用起了一个维度的数据(使得模型单薄)。然而既然我们收集到了时序上多维度的数据,如何综合整合多维时序数据为该指标综合判定得出指标是否稳定的结果,是本片文章探讨的一个方向。

默认情况下我们认为收集的多维度数据本身存在相互关系,例如主机各项指标,之间一定存在一定的关系,而不是好不相关。基于这一前提下,我们在对多维的时序预测结果思考一个综合判定的方法。

基于这一思考提出一种综合评判的方法:

加权归一阈值

目的

一个合适的计算公式,综合考虑多维度之间的相关性系数、时序维度上同一时刻超出阈值数值量、同一时刻超出阈值的指标数量而给出综合的结果。

解释

公式表示:

image.png

名词解释:

Correlation index{CI} : 相关指标

Correlation index corr{CIC} : 相关指标相关系数

Correlation index value{CIV} : 相关指标数值

threshold value {TV} : 阈值

threshold value up{TVU} : 阈值上限

threshold value low{TVL} : 阈值上限

weighted normalization threshold value {WNTV} : 加权归一阈值量

过程解释:

上式主要将三个角度上的数值: 同一时刻超出阈值的指标个数、同一时刻指标超出阈值指标的超出量、同一时刻每个超出阈值指标与目标指标相关性系数 ;这三个维度的计算结果加权调和成所谓的WNTV加权归一阈值。接下来对各部分解释如图:

image.png

如图,上下两个横线为某指标当前时序预测所给出的上限值下限值。上边红线表示真实值与预测上限的距离(即同一时刻指标超出阈值指标的超出量),绿线为真实值与预测下限的距离。红线部分与绿线的商值构成公式的分子的后半部分。

这样的设计目的在于:针对一个样本的计算,将脱离阈值的大小有效归一化在与下限的和中,可以对于小范围波动的情况,有很好的敏感性,对于大范围波动的情况,有很好的适应性。

随后的公司部分表示,将超限指标的相关系数作为权项,给超出值加上权重,并加权平均起来。加权求和平均之后可以有效将所有相关指标值综合起来。数值范围在0到1之间,越接近一表示综合超阈值情况越严重。

加权归一阈值量可以有效的反应目标指标,综合与其相关指标状态,给出综合脱离阈值范围的情况。

智能告警平台(Cloud Alert) CA,能快速接入各类告警信息,通过自动去重、规则压缩、算法降噪,实现告警降噪,帮助IT运维团队减少告警,避免告警风暴;同时通过分派、排班、通知等功能,快速实现告警流程化管理,帮助运维团队更快响应告警,恢复告警,提升告警管理能力。

CA提供多维度报表帮助您快速分析告警、成员工作效率,概览系统运行状况。支持自定义时间段,回溯分析历史系统状况。

关键指标分析

事件量: 原始告警量

· 主告警量: 自动去重、规则压缩后告警量

· 压缩比: 压缩比计算公式:(1 - 主告警量/事件量) * 100%

· MTTA: 告警平均响应or认领时长

· MTTR: 告警平均恢复or关闭时长

事件压缩分析

· 按天统计事件量、所有告警、主告警量随时间变化趋势

· 点击右上角 more 按钮,可下钻查看更多分析,若回溯分析时间跨度过长,还可以按月维度统计事件量、主告警量、所有告警量

应用分析&关闭分析

· 应用分析: 统计查询时间周期内,不同应用的告警数量;

· 关闭分析: 统计通过外部系统关闭、超时自动关闭、手动关闭三种方式关闭对应不同应用的关闭告警数量;

· 应用分析中点击右上角 more 按钮,可下钻选择不同应用按天查看告警

告警级别&状态分析

· 统计查询时间周期内,不同级别(提醒、警告、严重)占比,及告警当前处理状态(待认领、处理中、已关闭)。

· 支持联动查询:所有严重级别告警,当前处理状态分别是什么。

· 点击右上角 more 按钮,可下钻查看所有告警详单。

成员分析

· 统计查询时间周期内,团队所有成员的告警处理效率:被分派告警量、认领告警量、关闭告警量、MTTA、MTTR。

· 支持下钻查看每个成员被分派的告警详单。

告警智能分类分析

· CA内置分类算法,基于告警全文本分析,自动标注告警分类。

· 提供本周期与上周期对比分析,快速定位不同分类告警数量差异及变化情况。

· 分类类型内置,无需自定义,目前支持12种分类:网络状态、硬件处理器、硬件内存、操作系统、磁盘、WEB应用、信号检测、数据库、基础组件、应用监控、容器、其他等。分类算法还在持续迭代优化中,敬情期待。

Top告警内容分析

· 统计查询时间周期内,不同告警内容的发生频率并进行排序,快速定位频繁发生的告警。

· 对于频繁发生的告警,需分析是否需要统一彻底解决,或者是否需要调整监控平台的告警阈值等。

· 对于不频繁发生的告警,更需要额外警惕,往往不经常发生的告警,导致的问题更严重,定位根因更久,修复耗时更长。

新奇事件TOP10

· 今日新奇事件TOP10:相较于昨天,今日新发生的事件;

· 本周新奇事件TOP10:相较于上周,本周新发生的事件。

上文就是小编为大家整理的多维度告警分析的研究方法,网络告警数据分析方法。

国内(北京、上海、广州、深圳、成都、重庆、杭州、西安、武汉、苏州、郑州、南京、天津、长沙、东莞、宁波、佛山、合肥、青岛)睿象云智能运维平台软件分析、比较及推荐。

上一篇:如何快速进行故障根因定位分析,故障根因定位分析方法
下一篇:事件流处理方式介绍和所包含的类型
相关文章

 发表评论

暂时没有评论,来抢沙发吧~