AIOps是什么?如何实现AIOps 闭环落地?

知梧 675 2023-07-05

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

作为人工智能在运维领域的创新应用,智能运维已成为现代化数据中心应对复杂技术架构、严苛运行要求等一系列挑战的必然选择。顺应这一趋势,智能运维系列标准提供了一套全新的指导框架——以组织治理为引领、以场景实现为中心、以能力域构建为支撑所组成的智能运维能力框架。


数据、算法、场景、知识组成AIOps关键4要素

如Gartner定义中提出,AIOps应用需要利用大数 据,现代机器学习 技术和其他 高级分析技术,是一种相对较高门槛的工作模式。为了更好地落地AIOps,运维组织需要深刻的理解AIOps的内涵,重点实现思路:以数据为基础、算法为支撑、场景为导向,知识为扩展的AIOps4要素。

数据为先,AIOps需要快速生产高质量数据的能力。“快速”的思路可以以“中台”思路进行建设,建立统一的数据采控、实时与批量的数据处理能力、与运维相匹配的运维算法、存储方案、主数据、指标模型等;“高质量”则从将分散数据统一、在线后形成“活数据”,以及数据质量上的治理。从技术实现看,具备实时“采、存、算、管、用”的数据流动全生命周期管理的能力。其中,数据采集是按需在线采集数据的能力;数据存储是根据数据类型、数据应用特点对数据进行归档、整理、传输、共享;数据计算包括数据标注、清洗、建模、加工、标准化、质量监控,以及为了获得数据洞察、决策、执行而对数据进行分析统计;数据管理重点围绕数据治理的,包括运维数据标准、主数据、元数据、数据质量、数据安全的管理;数据使用重点围绕数据服务角度涉及的数据目录、服务门户,以及配套的数据服务化能力。

算法大脑,适配、引入特定场景下运维算法,构建算法模型体系。机器学习尤其是深度学习的大规模应用,推动了人工智能的快速发展。随着国内TOB市场的火爆,AIOps上人工智能研究及应用正处于爆发期,引入AI技术的算法有三点优势:一是工作稳定性高,人工智能可不知疲倦地进行工作,在规律性问题的分析时不受环境影响。二是降低操作风险,利用人工智能取代传统人工经验操作,可更好地避免操作风险和道德风险。三是有效提高决策效率,人工智能可以快速地对大数据进行筛选和分析,帮助人们更高效率地决策。作为金融企业,一方面,由于人才、薪酬结构等方面不足,在算法的建设上应该更多地与外部供应商合作;另一方面,对算法的追求不一定是技术的先进性,事实上规律性的专家经验落地也是一种算法的实现,而且很多时候更加可靠。对于当前主流的算法参见上一节提到了的常用算法,这里不再重复。

场景驱动,以痛点、价值期望切入点,用智能赋能运维场景,落地智能运维能力。AIOps从词来看,应该包括“AI+Ops”,是用AI赋能运维场景的模式。有了上面提到的数据底座与算法大脑,下一步是AIOps运维模式的落地,主要将围绕场景的落地,一种是利用算法赋能已有的运维场景,另一种是算法实现原来无法实现的运维场景。前者是一个快速见效的模式,后者是应对变化而做出的变化。

运维知识描述了大量运维领域的相关对象定义、技巧,以及排故/解决经验的信息。运维知识图谱是把运维对象不同种类的信息连接在一起而得到的一个关系网络,是对运维数据进行表达的关键技术。通过构建运维知识图谱,从海量数据中自动挖掘各类运维主体,对其特性进行画像和结构化描述,动态记录运维主体之间的关联关系。基于运维知识图谱,利用自然语义等算法技术,可以帮助IT人员实现故障链传播分析、根因定位、智能的变更影响分析、故障预测等多种AIOps场景。

数字化转型背景下,组织创新、技术创新、融合创新、跨界创新等快速缔造形成了新一轮发展趋势,众多企业纷纷借此来实现质量变革、效率变革与动力变革。其间,数字技术在与企业业务深度融合的同时,也使得IT运维难度不断增加,依靠人力堆积的传统运维方式已愈发难以满足全新的IT运维要求,而引入更为先进的工具和手段,成为应对新时期诸多挑战的必然选择。在此背景下,数据中心逐步从以制度和流程为主驱动的传统模式,快速向以数据与算法为主驱动的智能运维阶段迈进。

总体而言,智能运维如今尚处于初级发展阶段,其标准研制工作需遵循“循序渐进、框架先行”的基本原则。从概念上讲,“智能运维(Algorithmic IT Operations)”由Gartner在2016年率先提出,意指基于算法的IT运维。此后,随着人工智能技术的发展,2018年Gartner将其英文全称更改为Artificial Intelligence for IT Operations,表明人工智能在IT运维领域的应用。此后,智能运维的概念不断被补充完善,但作为一种全新的运维模式,仍需要融入更多要素去实现传统运维的转型升级。

目前金融行业在数字化转型领域已做出了许多落地实践,智能运维也原来越被应用。

智能化的本质是由人做决策变成由机器做决策。要构造一个工具支持的线上化决策,再构建一个反馈体系,从数据发现结果,从结果再做新的检视。如车险生命表,形成“线上化决策--调整--回顾反馈--再调整”闭环。

在运维领域,通过抓“稳”、做“敏”、求“智”三个步骤实现智能化,即夯实基础设施层,搭建智能运算层;加强数据治理,提升自动化运维能力;选取监控、漏扫等特殊场景试点突破,探索智能运维之路。

1. 夯实基础设施层

当前,新技术发展日新月异,传统基础架构难以支撑业务快速发展的需要,要想更好的赋能业务创新,基础运维必须改变。

(1)SD-WAN落地

通过落地SD-WAN实现了分支开、编排组网、大屏可视、应用调度、智能选录、流量管理、安全合规等功能,大大提升了互联网及专网的管理效率,为进一步降本增效及运维人员统一管理奠定基础。

(2)搭建阳光云(混合云)平台

发展智能运维,云是基础。阳光混合云平由三个公有云和一个私有组成,包括40多个虚拟池,以及大数据资源平台、开源容器云、信创云等,平台种类逐步更迭,呈现多样化趋势。

2.探索智能运维

(1)搭建智能运算层

以CDH、OSS存储为支撑,采用NLP、OCR、生物识别等一系列人工智能技术,赋能业务发展。

(2)加强数据治理

CMDB是运维管理体系的核心,是自动化的基础,但CMDB的实现是一个艰难的过程,在采用商业成品软件以及自己设计等方式没有取得理想效果后,转而以热点数据和功能为突破口,推行自助消费,以消费监督数据准确性,以点带面,实现滚雪球式的发展,取得良性发展的成效。目前,CMDB包含所有基础架构资源类型及配置信息,对外接口155个,年被调次数4000万次。当前,CMDB体系正逐步走向成熟。未来将不断细化数据粒度,强化关系树,不断增加数据的种类,加强数据之间的关系整合,提供诸如智能预警、监控智能降噪、资源弹性分配等多方位的决策功能。

3.探索智能监控

一是建立全链路监控体系,整合基础架构层、业务应用层和用户端的运维数据,借助阳光云的大数据计算能力,进行统计、分析,并将结果持久化到数据库,推送给运维人员;二是自研降噪告警系统,根据不同告警特点,定制化降噪规则,对一部分规则比较明确的告警进行告警自愈尝试,目前总体降噪率到达50%左右,部分资源降噪率达到80%。三是红黄蓝系统健康情况监测,对系统资源使用及运行情况进行实时监测。未来,将在智能预警、告警自愈等方面加大研发力度,最大限度追求降本增效和系统稳定之间的平衡。

4. 智能利用智能化技术实现漏洞预警危险感知、精准下发、自动复检、可视化管理。

AIOps的前景十分广阔,但是在做到AIOps之前,我们前期需要做一些铺垫,包括构建端到端自动化的运维体系、将运营效能够通过数字化的方式进行度量,最后再是运维数据体系的建设。运维数据体系的建设又包含运维数据的治理、运维平台工具的建设以及运维场景的建设。建设完成后的企业已经基本实现敏捷运维体系,踏入国内运维第一梯队,为AIOps的演进打下坚实的基础。

上一篇:告警指标异常检测算法,如何解决监控告警异常的问题
下一篇:万众期待的【根因定位】来了,免费公测中
相关文章

 发表评论

暂时没有评论,来抢沙发吧~