告警关联性与根因分析(故障管理系统中关联告警)

来源网友投稿 709 2023-03-30

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈告警关联性与根因分析,以及故障管理系统中关联告警对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享告警关联性与根因分析的知识,其中也会对故障管理系统中关联告警进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

相比传统运维工具,AIOps的优势在哪里

所谓的AIOps,简单理解就是基于自动化运维,将AI和运维很好的结合起来。

AIOps的落地在多方面直击传统运维的痛点,AI算法承担起分析海量运维数据的重任,能够自动、准确地发现和定位问题,从决策层面提高运营效率,为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。

可见,AIOps 在企业中的作用正在进一步放大。但事实上,很多企业对于AIOps 能解决什么问题并不清晰,今天我们就以博睿数据的AIOps 的三大场景和算法说起。

博睿数据的AIOps 实践

作为中国领先的智能可观测平台,在AIOps实践方面,多年来博睿数据积极拥抱人工智能、机器学习等新技术变革的浪潮,并基于AI和机器学习技术,自主研发了“数据接入、处理、存储与分析技术”核心技术体系,全面布局智能基线、异常检测、智能告警、关联分析、根因分析等丰富且广泛的智能运维功能,并将AIOps能力融入端到端全栈监控产品线,可为传统企业提供强大的数据处理、存储和分析的软件工具,帮助客户整合各类IT运维监控数据,实现数据的统一存储和关联分析,打破数据孤岛,构建统一的IT运维管理平台,让企业的IT运维更加智能化、自动化。

在此基础上,博睿数据还依托完整的IT运维监控能力,利用大数据和机器学习技术持续构建先进的智能运维监控产品,2021年先后推出了搭载了AI能力的新一代APM产品Server7.0和新版的统一智能运维平台Dataview,不断落地智能异常检测、根因分析、故障预测等场景。基于人工智能的能力实现运维监控场景的信息整合、特征关联和业务洞察,帮助企业确保数字化业务平稳运行,并保障良好的数字化体验。

目前,博睿数据在AIOps 技术方面主要落地了三大场景。即智能基线预测、异常检测及告警收敛。

随着企业业务规模扩大,云原生与微服务的兴起,企业IT架构复杂性呈现指数级增长。而传统的IT运维手段面临故障发生后,查找故障原因困难,故障平均修复时间周期长,已无法满足新的运维要求。因此运用人工智能赋能运维,去取代缓慢易错的人力决策,快速给出运维决策建议,降低问题的影响并提前预警问题就成为了必然。AIOps作为目前运维发展的最高阶目标,未来将会赋能运维带给用户全新的体验。

但需要注意的是,当前智能运维的很多产品和项目在企业侧落地效果并不理想,究其原因可归类为三点:一是数据采集与AI平台割裂,多源数据之间的关联关系缺失导致AI平台缺乏高质量的数据,进而导致模型训练效果不佳;二是数据采集以metric和log为主,导致应用场景较窄且存在数据孤岛问题;三是AI平台能力尚有提升空间。当前落地的场景多以异常检测与智能告警为主,未来需要进一步提升根因分析与故障预测的能力。

因此,未来企业首先要建设一体化监控运维平台,一体化是智能化的基础。基于一体化监控运维平台采集的高质量的可观测数据数据以及数据之间的关联关系,进一步将AIOps的能力落地到一体化监控运维平台中,从而实现问题精准定位与见解能力。

此外,在实际应用中,依据信通院的相关调查,其受访企业中只有不足20%的企业具有智能化监控和运维决策能力,超过70%的企业在应用系统出现故障的10分钟内一筹莫展。

各行业的数字化转型正在改变这一现状,不仅互联网企业,更多传统企业的数字化转型为智能运维开拓了更广阔的市场,智能运维有着巨大的发展空间,这也是博睿数据等行业领先企业发力的大好时机。

提升创新能力,推广智能运维不仅是相关服务商自身发展的要求,也是提升我国企业应用管理和运维水平的使命。

中国企业数字化转型加速,无论是前端的应用服务迭代更新,还是后端IT运维架构的复杂度提升,都在加速培育智能运维的成长。

智能运维是如何抑制告警风暴的?

通常智能运维中告警关联性与根因分析的告警收敛场景,以机器学习算法为驱动,对海量告警关联性与根因分析的告警事件进行降噪和关联分析,辅助根因定位并可沉淀故障处理告警关联性与根因分析的知识,从而提升企业的运维效率,降低运维成本。 告警产生后,AIOps系统通过算法甄别 内容相关性(重复性、相似性)、时序相关性和拓扑相关
性 事件来进行告警事件的自动化抑制。这类收敛抑制,往往能得到99%的告警压缩率,极大地提高了告警有效性。

在一个完整的智能运维告警产品里,除了告警收敛,还可以基于故障传播链及拓扑信息 ( 可选 ), 智能发现突发故障场景;基于告警“熵值”算法,实现告警的动态优先级推荐;通过时序以及拓扑关系定位故障场景根因,并进行根因标记。当这些都可以完成时,由告警事件一步步引导的根因定位和排障,才是真正智能运维发挥了作用。

根因分析法分为哪几个阶段

根因分析法分为三个阶段,分别是问题(发生了什么),原因(为什么发生),措施(什么办法能够阻止问题再次发生)。

组织的多数疑难杂症都有不止于一种应对之法, 这些各不相同的解决之法,对于组织来说亦有不同程度的资源需求。 因为这种关联性的存在,就需要有一种最为有利的方案,能够快速解决妥善地解决问题。

因此,只顾解决表面原因、而不管根本原因的解决之法成为一种普遍现象,就不足为怪了。 然而,选择这种急功近利的问题解决办法,治标不治本,问题免不了要复发,其结果是组织不得不一而再、再而三地重复应对同一个问题。可以想象,这些方法的累积成本肯定是惊人的。

所谓根本原因,就是导致我们所关注的问题发生的最基本的原因。因为引起问题的原因通常有很多,物理条件、人为因素、系统行为、或者流程因素等等,通过科学分析,有可能发现不止一个根源性原因。

分析步骤:

根本原因分析法最常见的一项内容是,提问为什么会发生当前情况, 并对可能的答案进行记录。 然而,再逐一对每个答案问一个为什么,并记录下原因。根本原因分析法的目的就是要努力找出问题的作用因素,并对所有的原因进行分析。这种方法通过反复问一个为什么,能够把问题逐渐引向深入,直到你发现根本原因。

找到根本原因后,就要进行下一个步骤: 评估改变根本原因的最佳方法,从而从根本上解决问题。 这是另一个独立的过程,一般被称之为 改正和预防。当我们在寻找根本原因的时候,必须要记住对每一个已找出的原因也要进行评估,给出改正的办法,因为这样做也将有助于整体改善和提高。

根本原因分析作为一个一般性的术语,存在着一系列不尽相同的结构化的具体方法,用于解决具体的组织问题。

培训收获||如何做好根因分析

昨天听公司CTO,Sam总做了一场《如何做好根因分析》的培训。收获颇多,记录总结如下:
第一部分:培训的引子。

柏拉图在他的《理想国》中提到:理念是现实世界的原型,范式、本源是唯一真实的存在。跟第一性的原理类似都指导我们,追求事物的本质和问题的根源。

基于追求事物的本质和问题的根源理念,做事情是有事半功倍的办法的,比如:

第1:结构化思维,分离关注点

第2:理念提升才会通透

第3:根因分析CMMI5级的内容

第4:团队成熟的标志
第二部分:解决问题的关键要素有

第1:定义问题

第2:调查问题

第3:查询根本原因

第4:确保形成一个方案并确保实施

第三部分:根因的特点

第1:治标治本

第2:能识别风险

第3:沉淀积累,组织内可分享

第四部分:常见的根因分析法

第1:头脑风暴法

第2:5why法

第3:六顶思考帽

第4:鱼骨图

第5:80-20原则

第五部分:具体介绍3种常用的方法

第1:头脑风暴法:

基本方法为:需要有主持人,一般8-10人,主持人阐明问题后负责记录,参与人发表看法,主持人最后做记录总结。

头脑风暴法有几点需要注意的:

①:不评价,不否决,不表现出不耐烦,营造轻松气氛,鼓励大家畅所欲言

②:不排斥异想天开的想法或者提议

③:观点越多越好

④:间接无专利,鼓励综合数种间接的叠加式见解。搭人梯的见解可能是最靠近理想见解的见解。

头发风暴结束,主持人需要,先排优先级,加权重,分析见解的相关性、关联性和依赖,定向形成结论,并形成能落地的action.

第2:鱼骨图法

基本方法为:问题写在鱼头上,添出大骨、填写大要因,画出小骨,填写小要因。需要结构化思维。

特别说明:作为leader要对下属的汇报有判断力。

第3:80-20原则

80-20原则,又称帕累托法,在任何一组东西中,最重要的只占其中一小部分,约20%,其余80%尽管是多数,却是次要的。这种思维有助于帮助决策和思考。

培训完记录以上要点,最近也在听一本书,洞见,《为什么佛学是真的》,培养自己一些哲科思维。眼见不一定为真,存在不一定合理。希望2021年构建自己的哲科思维体系。

AIOps与ITOM的区别?

传统IT运维管理平台(ITOM)更偏向于管理某一细节分专业领域,完成单一管理任务。比如:SOC平台专注于信息安全管理;APM平台专注应用逻辑拓扑管理,应用故障诊断等。而AIOps平台则是以传统ITOM平台为基础,通过接口集成,汇总各个ITOM平台组件中的孤立运维数据,使其打破数据孤岛壁垒。AIOps毫无疑问是企业IT运维管理的发展趋势,解放人力。国内真正具有AIOps能力的厂商并不多,而听云多次入选Gartner APM魔力象限的中国唯一入选的企业,更是用实力证明了它的实力,在提高故障监测、告警预防和修复能力都十分专业。 关于告警关联性与根因分析和故障管理系统中关联告警的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 告警关联性与根因分析的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于故障管理系统中关联告警、告警关联性与根因分析的信息别忘了在本站进行查找喔。
上一篇:如何在众多的IT资产中准确找到机器最新的运维文档资料
下一篇:12个数据库安全故障和错误,看看你“踩雷”没?
相关文章

 发表评论

暂时没有评论,来抢沙发吧~