运营商的自动化与智能化运维现状分析

网友投稿 576 2022-12-04

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

运营商的自动化与智能化运维现状分析

运营商的运维现状

连接超过50亿移动用户的电信行业已彻底改变了世界。它让我们彼此相连、带给我们娱乐、传递给我们新闻、给予我们灵感。一直以来,电信运营商都是这些变化的掌舵者, 但如今运营商们却陷入了与互联网和OTT服务商日趋激烈的竞争之中。他们需要在不断追赶中实现自身的数字化运营运维转型,以迎接来自这些最成功的数字化企业的挑战。

运维需要自动化与智能化

部分流程不可视、不可管,烟囱式运维模式和昂贵的运维成本,是当前运维的主要痛点。大量工作需要人来手动完成,导致故障平均恢复时长较长,这些都影响了网络业务质量和终端用户体验。

运营商目前使用的大多数运维支撑软件(OSS)都是基于封闭的软件架构设计的。这些架构基于不同领域部署,从而形成一个个运维孤岛,使得软件变更周期不可控,拉长了新业务的上市时间。

运维工程师必须经过培训才能使用软件系统执行日常任务。他们未必懂得如何增强软件以适应不断变化需求,还可能受限于不允许定制软件的功能限制。由于手动操作的单调和重复性,运维人员会失去动力。枯燥的工作也导致严重的运维人员流失。

运维组织层级化,官僚化。例如,通常有三个层级的客户服务和网络运维,这也是烟囱式软件和流程式烟囱的一个表现,并且在级与级之间存在大量的手动切换。

当前运维模型的这些不足是自动化和智能化的关键驱动因素。实现自动化和智能化有助于运营商对其运营进行全面检查,以实现业务,服务和运维的灵活性。

然而,转型并不容易。根据麦肯锡(McKinsey )的调研,基于种种原因,超过80%的转型均以失败告终或无法实现其预期价值。所以电信行业应该向OTT服务商学习,去了解他们运营灵活且成功的原因。

向OTT服务商学习

互联网供应商,特别是OTT服务商,已经颠覆或正在改变几乎所有行业,哪怕是根基稳固的传统企业也不得不做出改变。

这些企业将其成功大部分归功于他们运营模式,并归纳了下面关于数字运营的基础共性,如:

高度自动化的运营流程

云基础架构

熟练掌握软件技能的操作人员

基于DevOps原则进行业务设计和交付

使用基于微服务的软件架构

谷歌使用DevOps建立“站点可靠性工程”范式,打造具有运营思维的软件产品,这些软件可以自动执行重复和反复出现的任务,以减少过程中出现的手动错误。优步采用灵活且可扩展的基于微服务的软件架构取代单片操作软件架构,以便快速,可靠和独立地跨区域发布软件。 Netflix基于云的服务基础架构和DevOps流程实现软件驱动的自动化运营。

自动化:自主运维之路

虽然目标是自主运维,但是这种转型却是循序渐进的,只有采用渐进的自动化方法才能实现。作为流程转型的一部分,运营商应不断寻求自动化的机会。他们应该遵循这个原则:所有可自动化的操作都应该被自动化。下面的图1说明了自动化自主运维的演变。

依赖重复的手工流程体现在:操作人员要么把相应的步骤写入手册,要么将其形成个人知识库。但即便手册说明足够详细,操作人员经验足够丰富,依赖手工流程也容易出错。 不精准的分析和不正确的配置所带来的风险极高,可能会带来服务中断、收入损失和客户流失等问题。因此保证每次任务都能准确一致地完成,是非常重要的。

软件自动化对手工流程最有助益,组件化的软件工程方法可以精确地识别重复的手动任务。首先就是把简单且反复出现的手动过程自动化。自动化的最终目标是将软件惯例打包为可重用的组件,从而使这些组件能够根据数据驱动的决策点和规则自动触发和执行任务。

智能化:实现预测预防性运维之路

工程师们在移动网络的规划设计、运维优化过程中,严重依赖于自身对网络拓扑结构以及终端用户移动性和使用习惯的深刻理解。随着这些网络拓扑变得更加复杂密集,工程师越来越难以预测和计算这些使用模型。为了解决这个问题,我们需要利用来自网络不同区域的所有数据:不仅仅是运维数据,还有网络其他领域的数据。这些数据可以被反馈到模型中,我们可以通过模型提取和运算获得深入和可操作的见解,进一步优化运维。

大量历史运维数据结合有监督的机器学习算法可以通过训练检测到常见问题(例如,网络性能降低)并触发例行应对机制(例如,网络扩容)。算法的持续校正可以提高模式匹配的准确性,也可以提高我们建立预测运维的信心。在预测性运维环境中,模型会提前数周、数天、数小时预测网络或业务问题,从而让我们有足够的时间采取措施纠正。

无监督学习算法在如何分类或标注方面无相应培训,而是在预测结果之前,采用分组或集群来组织数据了解隐含的结构和模式。强化学习是指机器学习算法执行单个操作并接受操作评价,并根据反馈校准执行下一步动作。在以上三种机器学习范例中,有监督的机器学习是最广泛使用的技术,它需要数据科学家来设置并不断校准这些算法。所有这三种机器学习技术都有望在实现全面运营自动化过程中发挥关键作用。

机器学习增强了拥有学习能力的分析模型,并提供了持续增强模型智能化的基本机制。例如,将基于机器学习的分析模型应用于部分自动化流程,这就为模型校准提供了极好的机会。使用监督和增强的机器学习方法,操作人员可以调整分析模型,因为他们可以在执行工作流时做出决策。

结论和建议

我们必须学习其他行业,尤其是像谷歌和亚马逊这样成功的数字化企业,去大胆接受那些对其成功有贡献的想法。转维运营不是一蹴而就的。运营商需要支持并实现持续的增量自动化和智能化,以获得直接收益,同时支持更广泛的转型之旅。

上一篇:关于智能化运维成安防行业新需求的介绍
下一篇:光伏电站运维指南
相关文章

 发表评论

暂时没有评论,来抢沙发吧~