智能运维aiops思路（智能运维技术）

来源网友投稿 536 2023-03-17

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本篇文章给大家谈谈智能运维aiops思路，以及智能运维技术对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。今天给各位分享智能运维aiops思路的知识，其中也会对智能运维技术进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、AIOps具体是如何落地的？
2、什么是AIOps智能运维？
3、什么是AIOps？怎么促进业务提升？
4、相比传统运维工具，AIOps的优势在哪里
5、IT运维平台算法背后的两大“神助攻”
6、华为AIOps使能服务加速新基建运维智能化转型

AIOps具体是如何落地的？

AIOps如何落地，还是以具体案例来说比较容易理解。就拿擎创为北京农村商业银行做的项目来说。

项目背景：

近年来数字化转型的步伐愈发变快，随着北京农村商业银行业务规模的扩增以及业务形式的电子化加速，贯穿业务、市场、系统、应用、数据库、中间件、网络、安全等多方面的数据量迅速叠加堆积。然而，这些对于市场而言极具价值的巨量化数据并不集中，它们分散在银行的各中心服务器或设备之中，这使得银行的数据运维工作量越来越大，尤其是在日志的统一管理、监控、信息挖掘等方面极为明显。因此，北京农村商业银行对于信息技术提升和数据管理加强的需求日益加深。

根据监管部门对银行数据治理的相关指引以及中国银监会《商业银行信息科技风险管理指引》（银监发〔2009〕19号）中针对日志文件完整性、存留周期的相关要求，北京农村商业银行最终选择擎创科技助力其完善智能运维建设，保障其业务的平稳高效运行。

解决方案：

根据北京农村商业银行的需求以及现状，擎创科技通过以下手段为其建设运维大数据平台。

通过现分布式高可用，支持横向扩展，随着业务需要随时扩容平台节点；

通过高效数据采集手段，实现对现有IT环境的实时数据采集，打破各个孤立运维工具中的数据孤岛；

对所有运维数据进行集中高效的存储、查询及可视化展示；

支持结构化、非结构化的数据采集支撑；

内置AI智能日志分析引擎，实现日志异常检测、日志异常定位并辅助故障定位。

平台架构图如下：

创新点：

北京农村商业银行在运维大数据平台项目的建设中，采用流批一体的处理技术、流式窗口聚合方式，实现了实时采集、秒级处理、秒级查询，为运维人员提供高效的数据查询手段，为应用人员实现交易数据与日志的深度结合；

采用智能算法判断、故障根因定位，为运维人员提供便捷数据分析工具。充分挖掘了北京农村商业银行的运维数据价值、提升了运维管理水平、提高了运维效率。

建设成效：

建设日志治理平台和大数据平台，实现日志数据统一集中管理、KPI动态异常检测、日志智能聚类等功能。

日志治理+大数据平台（算法），当前日增日志6TB，设计容量10TB，热数据保存30天、冷数据保存3个月，大数据平台日志存档一年、指标类数据两年；

最高峰每秒处理日志500万条日志，其中最高按单笔业务交易日志行数达3000+行，经采集、数据提取、数据合并、数据丰富等数据处理后延时小于1s。

总结：

随着运维大数据平台的建设完成，北京农村商业银行实现了对各类运维日志数据的统一管理，能够对日志进行集中查询、聚类分析、快速分析、精细化分析等操作，结合监控告警的智能化处理，可以做到事前智能预警、事后快速定位故障并分析，进一步提升了银行数据中心的运维管理水平。

什么是AIOps智能运维？

智能运维AIOps平台，往往是通过大数据、机器学习和可视化的方式让IT运维工作变得更高效。企业基础设施与运维负责人应该尽早启动AIOps平台部署工作，优化当前的性能分析，并在未来两年至五年内扩展至IT服务管理和自动化领域。

AIOps平台是将大数据与机器学习功能相结合的软件系统，主要对IT系统不断产生的数据量、类型和速度进行拓展性的采集和分析，以支撑IT运维的主要功能。该平台能够同时使用多个数据源、数据采集方法、数据分析及演示技术。

AIOps可以应用到广泛的IT运维流程及场景中，包括性能分析、异常检测、事件关联分析、IT服务管理和自动化。

核心功能包括智能运维aiops思路：

从各种数据源中提取数据

对提取的数据进行实时分析

对存储的数据进行历史分析

提供数据访问接口

存储采集数据

使用机器学习技术

根据分析结果启动操作

AIOps在企业中日益占据主导地位，而一些成熟的组织已正在利用该技术为企业领导者提供决策支撑。

智能运维aiops思路（智能运维技术）

什么是AIOps？怎么促进业务提升？

智能运维的概念是Gartner在2016年率先提出，当初的英文全称为Algorithmic IT Operations,意指基于算法的IT运维。随着人工智能技术的发展，2018年Gartner将其英文全称更改为Artificial Intelligence for IT Operations，表明人工智能在IT运维领域的应用。至今短短六年，其概念还在不断融入新的认知。
当前IT运维难度增加，依靠人力堆积的传统方式运维已经无法满足数字化时代对IT运维的要求，借助更先进工具和技术手段成为应对这些挑战的必然选择。数据中心面临着从制度和流程为主驱动的时代，快速向数据与算法为主驱动的智能运维时代迈进。智能运维，已然成为迎接挑战不可或缺的科技力量和解决方案。
AIOps（Artficial Intelligence for Operations），是一种将大数据、人工智能或机器学习技术赋能传统IT运维管理的平台（技术）。AIOps智能运维可以将全栈式的运维数据进行集中化管理，不同数据领域也可以进行智能算法根因定位。其次它可以从业务场景进行跟踪，了解交易路径，对于数据进行智能分析与预测。所以智能运维是一种全新的数字化运维能力，可以配合企业的数字化转型，保障企业的业务应用能够安全稳定且高效的运行。

相比传统运维工具，AIOps的优势在哪里

所谓的AIOps智能运维aiops思路，简单理解就是基于自动化运维，将AI和运维很好的结合起来。

AIOps的落地在多方面直击传统运维的痛点，AI算法承担起分析海量运维数据的重任，能够自动、准确地发现和定位问题，从决策层面提高运营效率，为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。

可见，AIOps 在企业中的作用正在进一步放大。但事实上，很多企业对于AIOps 能解决什么问题并不清晰，今天我们就以博睿数据的AIOps 的三大场景和算法说起。

博睿数据的AIOps 实践

作为中国领先的智能可观测平台，在AIOps实践方面，多年来博睿数据积极拥抱人工智能、机器学习等新技术变革的浪潮，并基于AI和机器学习技术，自主研发了“数据接入、处理、存储与分析技术”核心技术体系，全面布局智能基线、异常检测、智能告警、关联分析、根因分析等丰富且广泛的智能运维功能，并将AIOps能力融入端到端全栈监控产品线，可为传统企业提供强大的数据处理、存储和分析的软件工具，帮助客户整合各类IT运维监控数据，实现数据的统一存储和关联分析，打破数据孤岛，构建统一的IT运维管理平台，让企业的IT运维更加智能化、自动化。

在此基础上，博睿数据还依托完整的IT运维监控能力，利用大数据和机器学习技术持续构建先进的智能运维监控产品，2021年先后推出了搭载了AI能力的新一代APM产品Server7.0和新版的统一智能运维平台Dataview，不断落地智能异常检测、根因分析、故障预测等场景。基于人工智能的能力实现运维监控场景的信息整合、特征关联和业务洞察，帮助企业确保数字化业务平稳运行，并保障良好的数字化体验。

目前，博睿数据在AIOps 技术方面主要落地了三大场景。即智能基线预测、异常检测及告警收敛。

随着企业业务规模扩大，云原生与微服务的兴起，企业IT架构复杂性呈现指数级增长。而传统的IT运维手段面临故障发生后，查找故障原因困难，故障平均修复时间周期长，已无法满足新的运维要求。因此运用人工智能赋能运维，去取代缓慢易错的人力决策，快速给出运维决策建议，降低问题的影响并提前预警问题就成为了必然。AIOps作为目前运维发展的最高阶目标，未来将会赋能运维带给用户全新的体验。

但需要注意的是，当前智能运维的很多产品和项目在企业侧落地效果并不理想，究其原因可归类为三点智能运维aiops思路：一是数据采集与AI平台割裂，多源数据之间的关联关系缺失导致AI平台缺乏高质量的数据，进而导致模型训练效果不佳；二是数据采集以metric和log为主，导致应用场景较窄且存在数据孤岛问题；三是AI平台能力尚有提升空间。当前落地的场景多以异常检测与智能告警为主，未来需要进一步提升根因分析与故障预测的能力。

因此，未来企业首先要建设一体化监控运维平台，一体化是智能化的基础。基于一体化监控运维平台采集的高质量的可观测数据数据以及数据之间的关联关系，进一步将AIOps的能力落地到一体化监控运维平台中，从而实现问题精准定位与见解能力。

此外，在实际应用中，依据信通院的相关调查，其受访企业中只有不足20%的企业具有智能化监控和运维决策能力，超过70%的企业在应用系统出现故障的10分钟内一筹莫展。

各行业的数字化转型正在改变这一现状，不仅互联网企业，更多传统企业的数字化转型为智能运维开拓了更广阔的市场，智能运维有着巨大的发展空间，这也是博睿数据等行业领先企业发力的大好时机。

提升创新能力，推广智能运维不仅是相关服务商自身发展的要求，也是提升我国企业应用管理和运维水平的使命。

中国企业数字化转型加速，无论是前端的应用服务迭代更新，还是后端IT运维架构的复杂度提升，都在加速培育智能运维的成长。

IT运维平台算法背后的两大“神助攻”

智能运维(AIops)是目前 IT 运维领域最火热的词汇，全称是 Algorithmic IT operations platforms，正规翻译是『基于算法的 IT 运维平台』，直观可见算法是智能运维的核心要素之一。
本文主要谈算法对运维的作用，涉及异常检测和归因分析两方面，围绕运维系统Kale 中 skyline、Oculus 模块、Opprentice 系统、Granger causality（格兰杰因果关系）、FastDTW 算法等细节展开。

一、异常检测

异常检测，是运维工程师们最先可能接触的地方了。毕竟监控告警是所有运维工作的基础。设定告警阈值是一项耗时耗力的工作，需要运维人员在充分了解业务的前提下才能进行，还得考虑业务是不是平稳发展状态，否则一两周改动一次，运维工程师绝对是要发疯的。

如果能将这部分工作交给算法来解决，无疑是推翻一座大山。这件事情，机器学习当然可以做到。但是不用机器学习，基于数学统计的算法，同样可以，而且效果也不差。

异常检测之Skyline异常检测模块

2013年，Etsy 开源了一个内部的运维系统，叫 Kale。其中的 skyline 部分，就是做异常检测的模块，它提供了 9 种异常检测算法：

first_hour_average、

simple_stddev_from_moving_average、

stddev_from_moving_average、

mean_subtraction_cumulation、

least_squares

histogram_bins、

grubbs、

median_absolute_deviation、

Kolmogorov-Smirnov_test

简要的概括来说，这9种算法分为两类：

从正态分布入手：假设数据服从高斯分布，可以通过标准差来确定绝大多数数据点的区间；或者根据分布的直方图，落在过少直方里的数据就是异常；或者根据箱体图分析来避免造成长尾影响。

从样本校验入手：采用 Kolmogorov-Smirnov、Shapiro-Wilk、Lilliefor 等非参数校验方法。

这些都是统计学上的算法，而不是机器学习的事情。当然，Etsy 这个 Skyline 项目并不是异常检测的全部。

首先，这里只考虑了一个指标自己的状态，从纵向的时序角度做异常检测。而没有考虑业务的复杂性导致的横向异常。其次，提供了这么多种算法，到底一个指标在哪种算法下判断的更准？这又是一个很难判断的事情。

问题一：实现上的抉择。同样的样本校验算法，可以用来对比一个指标的当前和历史情况，也可以用来对比多个指标里哪个跟别的指标不一样。

问题二： Skyline 其实自己采用了一种特别朴实和简单的办法来做补充——9 个算法每人一票，投票达到阈值就算数。至于这个阈值，一般算 6 或者 7 这样，即占到大多数即可。

异常检测之Opprentice系统

作为对比，面对相同的问题，百度 SRE 的智能运维是怎么处理的。在去年的 APMcon 上，百度工程师描述 Opprentice 系统的主要思想时，用了这么一张图：

Opprentice 系统的主体流程为：

KPI 数据经过各式 detector 计算得到每个点的诸多 feature；

通过专门的交互工具，由运维人员标记 KPI 数据的异常时间段；

采用随机森林算法做异常分类。

其中 detector 有14种异常检测算法，如下图：

我们可以看到其中很多算法在 Etsy 的 Skyline 里同样存在。不过，为避免给这么多算法调配参数，直接采用的办法是：每个参数的取值范围均等分一下——反正随机森林不要求什么特征工程。如，用 holt-winters 做为一类 detector。holt-winters 有α，β，γ 三个参数，取值范围都是 [0, 1]。那么它就采样为 (0.2, 0.4, 0.6, 0.8)，也就是 4 ** 3 = 64 个可能。那么每个点就此得到 64 个特征值。

异常检测之

Opprentice 系统与 Skyline 很相似

Opprentice 系统整个流程跟 skyline 的思想相似之处在于先通过不同的统计学上的算法来尝试发现异常，然后通过一个多数同意的方式/算法来确定最终的判定结果。

只不过这里百度采用了一个随机森林的算法，来更靠谱一点的投票。而 Etsy 呢？在 skyline 开源几个月后，他们内部又实现了新版本，叫 Thyme。利用了小波分解、傅里叶变换、Mann-whitney 检测等等技术。

另外，社区在 Skyline 上同样做了后续更新，Earthgecko 利用 Tsfresh 模块来提取时序数据的特征值，以此做多时序之间的异常检测。我们可以看到，后续发展的两种 Skyline，依然都没有使用机器学习，而是进一步深度挖掘和调整时序相关的统计学算法。

开源社区除了 Etsy，还有诸多巨头也开源过各式其他的时序异常检测算法库，大多是在 2015 年开始的。列举如下：

Yahoo! 在去年开源的 egads 库。(Java)

Twitter 在去年开源的 anomalydetection 库。(R)

Netflix 在 2015 年开源的 Surus 库。(Pig，基于PCA)

其中 Twitter 这个库还被 port 到 Python 社区，有兴趣的读者也可以试试。

二、归因分析

归因分析是运维工作的下一大块内容，就是收到报警以后的排障。对于简单故障，应对方案一般也很简单，采用 service restart engineering~ 但是在大规模 IT 环境下，通常一个故障会触发或导致大面积的告警发生。如果能从大面积的告警中，找到最紧迫最要紧的那个，肯定能大大的缩短故障恢复时间(MTTR)。

这个故障定位的需求，通常被归类为根因分析（RCA，Root Cause Analysis）。当然，RCA 可不止故障定位一个用途，性能优化的过程通常也是 RCA 的一种。

归因分析之 Oculus 模块

和异常检测一样，做 RCA 同样是可以统计学和机器学习方法并行的~我们还是从统计学的角度开始。依然是 Etsy 的 kale 系统，其中除了做异常检测的 skyline 以外，还有另外一部分，叫 Oculus。而且在 Etsy 重构 kale 2.0 的时候，Oculus 被认为是1.0 最成功的部分，完整保留下来了。

Oculus 的思路，用一句话描述，就是：如果一个监控指标的时间趋势图走势，跟另一个监控指标的趋势图长得比较像，那它们很可能是被同一个根因影响的。那么，如果整体 IT 环境内的时间同步是可靠的，且监控指标的颗粒度比较细的情况下，我们就可能近似的推断：跟一个告警比较像的最早的那个监控指标，应该就是需要重点关注的根因了。

Oculus 截图如下：

这部分使用的计算方式有两种：

欧式距离，就是不同时序数据，在相同时刻做对比。假如0分0秒，a和b相差1000，0分5秒，也相差1000，依次类推。

FastDTW，则加了一层偏移量，0分0秒的a和0分5秒的b相差1000，0分5秒的a和0分10秒的b也相差1000，依次类推。当然，算法在这个简单假设背后，是有很多降低计算复杂度的具体实现的，这里就不谈了。

唯一可惜的是 Etsy 当初实现 Oculus 是基于 ES 的 0.20 版本，后来该版本一直没有更新。现在停留在这么老版本的 ES 用户应该很少了。除了 Oculus，还有很多其他产品，采用不同的统计学原理，达到类似的效果。

归因分析之 Granger causality

Granger causality（格兰杰因果关系）是一种算法，简单来说它通过比较“已知上一时刻所有信息，这一时刻 X 的概率分布情况”和“已知上一时刻除 Y 以外的所有信息，这一时刻 X 的概率分布情况”，来判断 Y 对 X 是否存在因果关系。

可能有了解过一点机器学习信息的读者会很诧异了：不是说机器只能反应相关性，不能反应因果性的么？需要说明一下，这里的因果，是统计学意义上的因果，不是我们通常哲学意义上的因果。

统计学上的因果定义是：『在宇宙中所有其他事件的发生情况固定不变的条件下，如果一个事件 A 的发生与不发生对于另一个事件 B 的发生的概率有影响，并且这两个事件在时间上有先后顺序（A 前 B 后），那么我们便可以说 A 是 B 的原因。』

归因分析之皮尔逊系数

另一个常用的算法是皮尔逊系数。下图是某 ITOM 软件的实现：

我们可以看到，其主要元素和采用 FastDTW 算法的 Oculus 类似：correlation 表示相关性的评分、lead/lag 表示不同时序数据在时间轴上的偏移量。

皮尔逊系数在 R 语言里可以特别简单的做到。比如我们拿到同时间段的访问量和服务器 CPU 使用率：

然后运行如下命令：

acc_count<-scale(acc$acc_count,center=T,scale=T)

cpu<-scale(acc$cpuload5,center=T,scale=T)

cor.test(acc_count,cpu)

可以看到如下结果输出：

对应的可视化图形如下：

这就说明网站数据访问量和 CPU 存在弱相关，同时从散点图上看两者为非线性关系。因此访问量上升不一定会真正影响 CPU 消耗。

其实 R 语言不太适合嵌入到现有的运维系统中。那这时候使用 Elasticsearch 的工程师就有福了。ES 在大家常用的 metric aggregation、bucket aggregation、pipeline aggregation 之外，还提供了一种 matrix aggregation，目前唯一支持的 matrix_stats 就是采用了皮尔逊系数的计算，接口文档见：

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-matrix-stats-aggregation.html

唯一需要注意的就是，要求计算相关性的两个字段必须同时存在于一个 event 里。所以没法直接从现成的 ES 数据中请求不同的 date_histogram，然后计算，需要自己手动整理一遍，转储回 ES 再计算。

饶琛琳，目前就职日志易，有十年运维工作经验。在微博担任系统架构师期间，负责带领11人的SRE团队。著有《网站运维技术与实践》、《ELKstack权威指南》，合译有《Puppet 3 Cookbook》、《Learning Puppet 4》。在众多技术大会上分享过自动化运维与数据分析相关主题。

华为AIOps使能服务加速新基建运维智能化转型

人工智能经历了六十多年智能运维aiops思路的浮浮沉沉，随着计算算力的进步，算法的创新和互联网发展下的海量数据积累，人工智能技术未来十年将焕发出新的活力，成为最具有冲击力的科技发展趋势之一。

在HUAWEI CONNECT 2020期间，华为基于对电信领域的深刻理解和多年经验沉淀，带来了《AIOps使能服务》的分享，旨在结合电信领域应用场景，使能网络达到自动、自愈、自优和自治的自动驾驶网络，提升整个网络的效率，降低OPEX。

AIOps成为电信网络运维智能化转型趋势

随着“5G 新基建”的加速实施，数字经济发展迎来新的动能。不仅推动投资消费的快速成长，还将驱动各行业的数字化转型升级。随之而来的是网络问题复杂化与业务质量高要求的挑战，运维能力的演进成为电信网络能否持续发挥效能的关键因素。

电信网络运维作业正面临问题发现被动（75% 问题由用户发现），故障根因定位难（90% 时间用于问题定位）的业务挑战。同时，各专业运维支撑系统功能也面临开发周期长，闭环流程自动化程度低的技术瓶颈。因此，运营商期望引入AI实现智能运维，做到主动维护和故障自愈。

在运维支撑系统的演进方向上，AIOps（运用AI及大数据技术解决运维问题）已经成为电信行业运维智能化转型的趋势和共识智能运维aiops思路：构建AIOps平台能力，支撑不同运维场景应用。在未来五年内，电信行业市场的运维系统和平台将加速AI能力的升级，成为电信领域AI应用的核心场景，投资占比达到60%。

因此，AIOps已经成为电信网络运维智能化转型趋势。通过构建电信领域AIOps平台能力，快速实现智能运维升级。

华为AIOps助力网络提升可靠性及使能智能化运维

按照自动驾驶网络的等级定义，运维的智能化目标是要实现全域、全流程的预测性运维，自动监控、定位、自愈。

华为AIOps使能服务作为自动驾驶网络AI引擎NAIE的核心能力，基于AI平台，提供了一系列的电信领域AIOps原子能力以及组合编排能力，使能网络管控析单元、智能运维解决方案等运维系统，最终帮助运营商打破原有的烟囱式建设方式，将各专业运维系统的应用与AI能力解耦，采用分层的服务化架构对接共享数据中心，集中提供AIOps能力，适配运维场景应用百花齐放的需求。

如下是华为AIOps使能服务预组合编排好的服务，可开箱即用：

kpi异常检测服务，快速智能识别海量kpi/kqi的异常情况，广泛应用在网络性能和质量监控场景；

故障识别与根因定位服务，根据海量告警结合对应网络拓扑和传播知识，实时识别故障及根因网元及告警，可自动学习知识规律，保证持续优化，可广泛应用在各种网络场景；

日志异常检测服务，实现日志的自动分类和统计规律发掘，实时监控出系统的异常行为和相关日志，可广泛应用在IT及电信网络场景；

硬盘异常预测，可智能预测短期内（14天）的硬盘故障，以采取规避预防措施，以免对业务产生影响，广泛支持主流厂商的HDD及SSD型号。

细数华为AIOps使能服务四大核心竞争力

提供丰富的AIOps原子能力： AIOps的原子能力覆盖运维全流程，包括预测、检测，定位、执行。原子能力库支持流量预测，故障预测，KPI异常检测，日志异常检测，CHR异常检测，异常关联分析，事件聚合，根因定位等20+原子能力。

作为电信领域的AIOps使能服务，具备两个核心特点：一是基于华为电信领域的经验，原子能力将AI算法与电信领域行业知识融合，预制了默认的电信领域模型参数，同时支持现网运行态的调优，解决当前通用算法模型在具体行业落地效果差的难题。目前，已经在现网得到了规模验证。

另一个是AIOps原子能力采用标准化模型规范，统一数据输入，参数配置，结果输出等接口。为AIOps单点原子能力到灵活的组合串接提供了基础。

组合编排与DevOps能力：通过组合编排功能，使用者可选择业务场景所需的AIOps原子能力，通过可视化方式完成流程串接，并进行业务泛化参数配置，包括数据接入方式，模型参数，内置电信领域泛化参数，事件通知方式、可视化Dashboard等配置。上述能力支持可视化编排或接口调用方式实现。此外，基于NAIE平台训练服务，AIOps的原子能力库支持使用者根据实际业务需求开展算法模型的创新与开发，不断扩展AIOps能力。NAIE的生态服务也提供专业的人员培训赋能。

支持电信领域数据对接：支持KPI、告警、日志、xDR等电信领域主流运维数据。支持Kafka，数据库，文件系统，Restful等电信运维系统的主流数据对接方式。AIOps使能服务提供通用的数据源对接和标准化数据治理组件，通过配置项快速建立与运维系统的数据源连接，通过SDK将不同的数据类型和格式治理成标准化的AIOps原子能力输入集，用于模型训练和推理。

场景组合服务：围绕运维全流程（发现、分析、处理）提供预制典型场景组合应用，快速接入运维流程。

综上所述，华为AIOps使能服务作为智能运维AI能力引擎，融合AI的技术优势与华为在电信领域的专业优势，为运维系统的智能化演进提供AIOps平台能力支持，助力到各专业运维系统的应用快速上线，让运维专家专注场景应用设计和业务目标达成。

华为AIOps助力运营商及企业网络打造最佳实践

在KPI异常检测方面，电信网络中，通过KPI来预测和检测网络问题是最普遍的场景。通过AI算法基于历史数据自动生成每个KPI的动态门限，避免传统静态门限带来的误报和漏报。

华为NAIE融合了电信领域的运维业务特点，提供单指标/多指标检测，异常原因关联分析，模型的自学习调优等关键能力。目前已经用在核心网，无线，数通等不同业务领域。国内某运营商采用了核心网KPI异常检测服务以后，实现提前5小时识别异常并主动预警，降低了业务损失。

在告警根因定位方面，发现异常或者故障之后的定位是运维流程中的难点，如何准确的将多维度的异常、告警等事件进行汇聚，减少故障噪声，准确定位到具体原因？这些工作目前主要依赖专家经验或者手工分析，而且受限于分析算力和知识信息，效果并不好。

华为NAIE AIOps通过AI算法与业务的融合，支持多类异常/告警等事件的智能故障定位，自动实现时间，拓扑和故障传播图等维度的事件汇聚和根因定位。目前已经应用到无线接入网等业务领域，经过实际验证，无效上站减少60%，根因识别准确率85%+，运维效率整体提升15%。

写在最后，电信领域AIOps落地的关键是需要将行业知识与AI技术融合。网络运维系统的AIOps能力构建的趋势是业务与能力解耦，做到AIOps能力的复用、拉通，支持，适配运维场景应用百花齐放和快速上线迭代的需求。

因此，AIOps使能服务作为智能运维AI能力引擎，融合AI的技术优势与华为在电信领域的专业优势，为运维系统的智能化演进提供AIOps平台能力支持，助力到各专业运维系统的应用快速上线，让运维专家专注场景应用设计和业务目标达成。目前，华为AIOps使能服务已经在无线，核心网，数通等网络域得到了广泛的应用。

关于智能运维aiops思路和智能运维技术的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。智能运维aiops思路的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于智能运维技术、智能运维aiops思路的信息别忘了在本站进行查找喔。

标签：智能运维智能技术运维 IT运维

暂时没有评论，来抢沙发吧~

智能运维aiops思路（智能运维技术）

AIOps具体是如何落地的？

什么是AIOps智能运维？

什么是AIOps？怎么促进业务提升？

相比传统运维工具，AIOps的优势在哪里

IT运维平台算法背后的两大“神助攻”

华为AIOps使能服务加速新基建运维智能化转型

睿象云智能告警平台的分派策略

智能告警平台CA如何分组及邀请成员

智能告警平台CA的用户角色和权限