实时警报通知:微信告警通知的重要性解析
709
2023-03-30
本文目录一览:
所谓的AIOps,简单理解就是基于自动化运维,将AI和运维很好的结合起来。
AIOps的落地在多方面直击传统运维的痛点,AI算法承担起分析海量运维数据的重任,能够自动、准确地发现和定位问题,从决策层面提高运营效率,为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。
可见,AIOps 在企业中的作用正在进一步放大。但事实上,很多企业对于AIOps 能解决什么问题并不清晰,今天我们就以博睿数据的AIOps 的三大场景和算法说起。
博睿数据的AIOps 实践
作为中国领先的智能可观测平台,在AIOps实践方面,多年来博睿数据积极拥抱人工智能、机器学习等新技术变革的浪潮,并基于AI和机器学习技术,自主研发了“数据接入、处理、存储与分析技术”核心技术体系,全面布局智能基线、异常检测、智能告警、关联分析、根因分析等丰富且广泛的智能运维功能,并将AIOps能力融入端到端全栈监控产品线,可为传统企业提供强大的数据处理、存储和分析的软件工具,帮助客户整合各类IT运维监控数据,实现数据的统一存储和关联分析,打破数据孤岛,构建统一的IT运维管理平台,让企业的IT运维更加智能化、自动化。
在此基础上,博睿数据还依托完整的IT运维监控能力,利用大数据和机器学习技术持续构建先进的智能运维监控产品,2021年先后推出了搭载了AI能力的新一代APM产品Server7.0和新版的统一智能运维平台Dataview,不断落地智能异常检测、根因分析、故障预测等场景。基于人工智能的能力实现运维监控场景的信息整合、特征关联和业务洞察,帮助企业确保数字化业务平稳运行,并保障良好的数字化体验。
目前,博睿数据在AIOps 技术方面主要落地了三大场景。即智能基线预测、异常检测及告警收敛。
随着企业业务规模扩大,云原生与微服务的兴起,企业IT架构复杂性呈现指数级增长。而传统的IT运维手段面临故障发生后,查找故障原因困难,故障平均修复时间周期长,已无法满足新的运维要求。因此运用人工智能赋能运维,去取代缓慢易错的人力决策,快速给出运维决策建议,降低问题的影响并提前预警问题就成为了必然。AIOps作为目前运维发展的最高阶目标,未来将会赋能运维带给用户全新的体验。
但需要注意的是,当前智能运维的很多产品和项目在企业侧落地效果并不理想,究其原因可归类为三点:一是数据采集与AI平台割裂,多源数据之间的关联关系缺失导致AI平台缺乏高质量的数据,进而导致模型训练效果不佳;二是数据采集以metric和log为主,导致应用场景较窄且存在数据孤岛问题;三是AI平台能力尚有提升空间。当前落地的场景多以异常检测与智能告警为主,未来需要进一步提升根因分析与故障预测的能力。
因此,未来企业首先要建设一体化监控运维平台,一体化是智能化的基础。基于一体化监控运维平台采集的高质量的可观测数据数据以及数据之间的关联关系,进一步将AIOps的能力落地到一体化监控运维平台中,从而实现问题精准定位与见解能力。
此外,在实际应用中,依据信通院的相关调查,其受访企业中只有不足20%的企业具有智能化监控和运维决策能力,超过70%的企业在应用系统出现故障的10分钟内一筹莫展。
各行业的数字化转型正在改变这一现状,不仅互联网企业,更多传统企业的数字化转型为智能运维开拓了更广阔的市场,智能运维有着巨大的发展空间,这也是博睿数据等行业领先企业发力的大好时机。
提升创新能力,推广智能运维不仅是相关服务商自身发展的要求,也是提升我国企业应用管理和运维水平的使命。
中国企业数字化转型加速,无论是前端的应用服务迭代更新,还是后端IT运维架构的复杂度提升,都在加速培育智能运维的成长。
通常智能运维中告警关联性与根因分析的告警收敛场景,以机器学习算法为驱动,对海量告警关联性与根因分析的告警事件进行降噪和关联分析,辅助根因定位并可沉淀故障处理告警关联性与根因分析的知识,从而提升企业的运维效率,降低运维成本。 告警产生后,AIOps系统通过算法甄别 内容相关性(重复性、相似性)、时序相关性和拓扑相关
性 事件来进行告警事件的自动化抑制。这类收敛抑制,往往能得到99%的告警压缩率,极大地提高了告警有效性。
在一个完整的智能运维告警产品里,除了告警收敛,还可以基于故障传播链及拓扑信息 ( 可选 ), 智能发现突发故障场景;基于告警“熵值”算法,实现告警的动态优先级推荐;通过时序以及拓扑关系定位故障场景根因,并进行根因标记。当这些都可以完成时,由告警事件一步步引导的根因定位和排障,才是真正智能运维发挥了作用。
根因分析法分为三个阶段,分别是问题(发生了什么),原因(为什么发生),措施(什么办法能够阻止问题再次发生)。
组织的多数疑难杂症都有不止于一种应对之法, 这些各不相同的解决之法,对于组织来说亦有不同程度的资源需求。 因为这种关联性的存在,就需要有一种最为有利的方案,能够快速解决妥善地解决问题。
因此,只顾解决表面原因、而不管根本原因的解决之法成为一种普遍现象,就不足为怪了。 然而,选择这种急功近利的问题解决办法,治标不治本,问题免不了要复发,其结果是组织不得不一而再、再而三地重复应对同一个问题。可以想象,这些方法的累积成本肯定是惊人的。
所谓根本原因,就是导致我们所关注的问题发生的最基本的原因。因为引起问题的原因通常有很多,物理条件、人为因素、系统行为、或者流程因素等等,通过科学分析,有可能发现不止一个根源性原因。
分析步骤:
根本原因分析法最常见的一项内容是,提问为什么会发生当前情况, 并对可能的答案进行记录。 然而,再逐一对每个答案问一个为什么,并记录下原因。根本原因分析法的目的就是要努力找出问题的作用因素,并对所有的原因进行分析。这种方法通过反复问一个为什么,能够把问题逐渐引向深入,直到你发现根本原因。
找到根本原因后,就要进行下一个步骤: 评估改变根本原因的最佳方法,从而从根本上解决问题。 这是另一个独立的过程,一般被称之为 改正和预防。当我们在寻找根本原因的时候,必须要记住对每一个已找出的原因也要进行评估,给出改正的办法,因为这样做也将有助于整体改善和提高。
根本原因分析作为一个一般性的术语,存在着一系列不尽相同的结构化的具体方法,用于解决具体的组织问题。
发表评论
暂时没有评论,来抢沙发吧~