告警根因分析算法(告警根因分析算法是什么)

4747 1267 2022-11-13

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本文目录一览:

轻松搞定根因分析 -- “5WHY”分析法其实很简单

所谓“5WHY”分析法,又称“5问法”,就是连续反复使用5次“为什么”方式自问,以打破砂锅问到底方式寻找问题的根本原因的方法。“5WHY”不限定必须或只做5次为什么的提问,以找到问题根因为准,也许是3次,也许是10几次都有可能。一般经验而言,反复提出5次为什么基本就可以寻找到问题的根因。

“5WHY”分析法是根据事实分析找到问题根源,给出治本对策的一个过程。“为什么”的追问的越深入,发掘的原因就越逼近真实根本的原因。

整体的“5WHY”的基本思考方法如下:

最近发现大家知道使用5why分析法进行根因分析,但是经常出现找到的原因并非根因,那么相应的制定的再发防止对策也是无效的。究其原因就是虽然知道“5WHY”的方法但是却不会运用或者运用的方法不正确,导致不能够找到问题真正的根因。那么该如何做呢?接下来介绍一下具体的分析过程注意事项。

一般而言,“5WHY”从三个层面来实施:

一、为什么会发生?从“制造”的角度。

二、为什么没有发现?从“检验”的角度。

三、为什么没有从系统上预防事故?从“体系”或“流程”的角度。

每个层面连续5次或N次的询问,得出最终结论。只有以上三个层面的问题都探寻出来,才能发现根本问题,并寻求解决。那么如何做才能确保根因分析的正确和成功呢?

站在组织级视角来寻求改善组织体系/流程和系统性问题。 这是最基本的立场。通常情况下,很多人站在个人的立场和视角进行问题分析,往往只能找到比较表层的原因,不能找到管理层面,体系架构以及组织级层面的问题。

确保根因分析成功的3个关键视点:

〇[为什么]要从个人转向组织/体系/系统层面。

〇[为什么]要从主观意识转向具体行动。

〇[为什么]的主语设定成“我们”。

1)整理问题点,并根据事实进行分析。

正确的把握现象是非常重要。

分析质量取决于对深究分析之前的当前情况的把握程度。

没有通过确认现场就判断出问题的原因是站不住脚的,是没有道理的。

想象要以能够可见而简单易懂的形式记录保留下来。(图文影像最好)

2)找出所有的要因,事先不要考虑是否真的针对这些要因采取对策!

有很多原因是不是显而易见的,要将这些要因都可见化的描述出来。

3)采用复眼分析,也就是说相关的人员都要参与进来。

不要仅仅根据个人假设或猜测来决定!

如果是通过某个人主观性先入为主的来判断分析,那么将对策偏离了方向也不会被发现。

问题发生后要尽早的让当事人参与进来进行分析。

4)不要试图进行“责任转嫁”,通过原因分析将责任转移到外部环境和己方以外的其他方面上是比较严重的问题。

对于[为什么分析]要严谨[责任转嫁]!首先,应该考虑不受外部环境影响的工作机制!但是,如果外部环境真的是“根因”的话,那么就要分析改进它。[责任转嫁]的思维的结局→最终原因总是[别人不好]。

5)最初的“为什么1”,要从问题现象的根本的原因开始分析。

导致问题现象必然发生的直接行动,现象/事件/事态/实物因素等要记录下来。(“我忘了忘了”不好)

订购数量有误!→为什么?我在订单上写了错误的号码。

漏水!              →为什么?某处必须有空隙(洞)。

注)『为什么1』在开始时会影响『为什么2』以后的分析,因此这非常重要。

6)对于“为什么1”,要将“发生要因”和“流出要因”两个方面进行分析。

“引起问题现象发生的直接原因”和“没有发现错误导致问题流出的直接原因”都分别记录下来。

7)“现象”或“为什么”的句子以简短扼要的“〇〇〇做了〇〇〇”的形式记录下来。

比较重要的是如果有主人公的话,那么要明确是『谁』。

8)准确地掌握现象,不要粗略的表述,建议采用5W1H方法明确的表述

如何捕捉现象(如何写)非常重要,5W1H方法描述。

词语含义很重要,不要有模糊含义的词语。

9)根因分析完成后,一定要从最后一个“为什么”反向的追溯到“问题的现象”,确认反向逻辑在理论上也是正确的。

原因分析时的逻辑是“发生了〇〇〇→为什么?→因为〇〇〇”,而反向验证的逻辑是“因为 〇 〇〇〇,所以〇〇〇”。

10)不要遗漏并行关系的要因。

“存在单一的线性的原因引起问题的发生”几乎很少或者是不可能的。相反的,往往是“多个原因相互共同作用”才引起问题的发生。要对问题发生的“必要条件”和“充分条件”进行检查是否遗漏并推进分析。 

11)要持续的追问“为什么”,直到出现能够制定预防复发措施的原因为止。

最后一个原因必须是确保可靠和有效的能够被解决的因素。

12)只写出被认为与正常情况不一致(异常)的客观差异事实。

例如:“因为非常的忙”这样的描述不是异常描述,如是“工作负荷达到150%以上的情况已经持续一周时间了”这样的描述,就是一个基于和正常情况进行比较得出的明确的客观的异常情况。

13)避免追究面向人的心理方面的原因。

 人心里方面的因素是不容易被管理和制定相应的管理制度的。

避免追求心理方面,才能够将“为什么”指向可用于确保预防复发措施的设备和管理机制等方面的原因。

14)不要是使用“〇〇〇不好/很坏”或“〇〇〇不充分”这样的句子来描述问题。

要能够明确的将与标准或正常情况进行对比出的异常情况的客观事实描述出来。

比如“材料不好”这是一个主管判断不是事实,如果具体地说“材料的耐热温度低”就比较具体和客观了。

15)在进行关于事物的性质・状态进行分析时,事物比较的对象/基准以及发生频度等情况要明确化并尽可能量化。

事物的大小,长度,高度等要素在分析表述时,要有对比的基准,以及引发问题发生的条件要明确出来。例如“温度比设定的温度高了5度”等。

16) 在分析由于人为错误的原因导致的问题时,不仅仅关注当事者本人的问题,也应将思考方向指向“工作机制/输入信息/周围相关人/管理・监督者”等。

17)通过“现场”、“现物”、“现实”(3现主义)来尽早确认分析出的“根因”是否是真正的原因。

在分析的过程中,如果能验证“根因”是否正确,那么要尽快的在发生现场或现物中进行确认,通过进行听证、分解调查、测量、再现实验等手段尽快验证。

18)不仅要考虑发生事件本身的永久性对策,还要考虑到同类型类似的横向问题,扩大视野分析是否存在上层系统和机制的问题,并思考系统性预防措施。

所谓5why分析法,又称“5问法”,就是连续反复使用5次“为什么”方式自问,以打破砂锅问到底方式寻找问题的根本原因的方法。5why不限定必须或只做5次为什么的提问,以找到问题根因为准,也许是3次,也许是10几次都有可能。一般经验而言,反复提出5次为什么基本就可以寻找到问题的根因。

根因分析法是什么?

根因分析是一项结构化的问题处理法,用以逐步找出问题的根本原因并加以解决, 而不是仅仅关注问题的表征。

所谓根本原因,就是导致我们所关注的问题发生的最基本的原因。因为引起问题的原因通常有很多,物理条件、人为因素、系统行为、或者流程因素等等,通过科学分析,有可能发现不止一个根源性原因。

分析要领:

1、提问为什么会发生当前情况, 并对可能的答案进行记录。

根本原因分析法的目的就是要努力找出问题的作用因素,并对所有的原因进行分析。这种方法通过反复问一个为什么,能够把问题逐渐引向深入,直到你发现根本原因。

2、找到根本原因后,就要 评估改变根本原因的最佳方法,从而从根本上解决问题。

这是另一个独立的过程,一般被称之为 改正和预防。当我们在寻找根本原因的时候,必须要记住对每一个已找出的原因也要进行评估,给出改正的办法,因为这样做也将有助于整体改善和提高。

以上内容参考:百度百科-根本原因分析

运维监控工具太多,根因定位不够智能和快速,如何解决?

常规的运维监控工具,基本都是监控某一种设备或某种应用的数据,并且通过阈值的设置来进行故障告警。这样虽然也达到了监控的目的,但在实际使用中,常遇到一个个设置阈值特别麻烦、阈值设置不合理造成告警过少或过多、不同监控数据之间没有关联,出一个故障各系统都在告警,难以判断根因的情况。

智能运维AIOps系统,能通过“数字运维中台”,将原有的分散的运维监控数据统一采集、存储、归档到中台内,并且利用“统一监控平台”对这些数据进行分析管理,如果原来有CMDB数据,还能建立关联并生成拓扑图。

当故障发生、系统告警时,告警辨析中心能利用规则和算法,锁定最重要的那些告警信息,并根据统一监控平台梳理的数据关系,协助查询日志及其他故障数据,更快定位根因。

AIOps平台架构和各数据层关系

智能运维是如何抑制告警风暴的?

通常智能运维中的告警收敛场景,以机器学习算法为驱动,对海量的告警事件进行降噪和关联分析,辅助根因定位并可沉淀故障处理的知识,从而提升企业的运维效率,降低运维成本。 告警产生后,AIOps系统通过算法甄别 内容相关性(重复性、相似性)、时序相关性和拓扑相关

性 事件来进行告警事件的自动化抑制。这类收敛抑制,往往能得到99%的告警压缩率,极大地提高了告警有效性。

在一个完整的智能运维告警产品里,除了告警收敛,还可以基于故障传播链及拓扑信息 ( 可选 ), 智能发现突发故障场景;基于告警“熵值”算法,实现告警的动态优先级推荐;通过时序以及拓扑关系定位故障场景根因,并进行根因标记。当这些都可以完成时,由告警事件一步步引导的根因定位和排障,才是真正智能运维发挥了作用。

上一篇:多维数据告警分析(实时多维分析)
下一篇:告警根因定位实践的简单介绍
相关文章

 发表评论

暂时没有评论,来抢沙发吧~