智能IT运维的现状如何?IT运维的职业发展方向有哪些?

知梧 893 2023-06-25

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

IT运维的发展

IT运维是IT运营维护人员根据业务需求来规划信息、网络、服务,通过网络监控、事件预警、业务调度、排障升级等手段,使IT系统处于长期稳定可用的状态。

早期的IT运维工作大部分是由运维人员手工完成,这种运维模式不仅低效,也消耗了大量的人力资源。利用工具来实现大规模和批量化的自动化IT运维,能极大地减少了人力成本,降低了操作风险,提高了运维效率。

但是自动化运维的本质依然是人与自动化工具相结合的运维模式,受限于人类自身的生理极限以及认识的局限,无法持续地面向大规模、高复杂性的系统提供高质量的运维服务。

智能运维(AIOps,Artificial Intelligence for IT Operations)是指通过机器学习等人工智能算法,自动地从海量运维数据中学习并总结规则,并作出决策的运维方式。

智能运维的概念最早由Gartner提出,它是将人工智能科技融入运维系统中,以大数据和机器学习为基础,从多种数据源中采集海量数据(包括日志、业务数据、系统数据等)进行实时或离线分析,通过主动性、人性化和动态可视化,增强传统运维的能力。

智能运维能快速分析处理海量数据,并得出有效的运维决策,执行自动化脚本以实现对系统的整体运维,能有效运维大规模系统。而在转型发展中,传统技术系统的运维模式面临以下三大挑战:

一是安全运行的挑战。

业务对技术系统的安全稳定运行要求高,而业务功能一般涉及多个系统应用,所采用的事后处置为主的运维模式,存在异常定位困难、处理效率低等缺陷,这种被动异常响应模式已经不能满足异常快速定位和处理的需求。

二是人力紧缺的挑战。

目前的技术系统运维由于工作量大、工作内容重复且枯燥,运维岗位特别是值班岗位的吸引力逐渐降低。运维需求与人力资源紧缺的矛盾,已经成为技术系统发展中无法避免的矛盾。

三是远程运维的挑战。

从单数据中心向多数据中心发展过程中,传统的现场运维方式也因数据中心地点偏僻、现场巡检工作繁琐重复等困难而导致运维成本和压力增大,如何实现远程运维来解决数据中心发展的问题。

技术发展中产生的问题必须依靠技术来解决,只有在运维领域引入新技术、新思路、新体系,才能更好地提升运维水平,更好地保障系统安全稳定高效的运行。

当前主流运维技术已从自动化运维向智能运维发展,利用人工智能来辅助甚至部分替代人工决策,可以进一步提升运维质量和效率。

因此,很多公司开展了智能运维的探索,研究如何在运维中引入人工智能,以实现事前智能预警、事后快速定位、夜间无人值守、远程集中管理等一系列的智能运维目标,以应对新环境下的三大运维挑战,进一步解放与发展生产力。


智能运维研究与应用现状

当前智能运维研究与应用在国内外各行业中都属于起步阶段,Gartner的报告中也做出预测:2020年,智能运维在一半以上的企业中落地并形成生产力

尽管如此,智能运维已经成为科研机构研究的热点,并在高利润、低成本的驱动下,互联网公司、金融机构、IT技术公司走在了智能运维工程应用方面的前列。

科研机构一向是新技术革命的领头羊。在智能运维研究领域,国内外科研机构不仅有先进的科研成果,也与工业界展开密切合作,从算法层面上支撑了智能运维的落地与发展。

卡内基梅隆大学与Netflix公司合作,在网络视频运维领域提出并应用多种人工智能方法:利用不同数据分析及统计分析方法,灵活使用可视化、相关分析、信息熵增益等工具,将杂乱无章数据转化为直观清晰信息,从而分析海量数据背后视频体验不佳的规律和瓶颈。

双方共同设计了视频传输智能优化方案,可根据客户的网络状态,动态地优化视频传输;通过决策树模型建立用户参与度的预测模型,指导关键性能指标的优化策略,改善用户的体验质量。

南京大学周志华教授团队专注于机器学习算法的研究,所提出的isolation forest孤立森林算法可用于挖掘异常数据,检测和分析异常。该方法已经在360公司系统运维中用以实时检测异常,腾讯公司也将其用于检测微信中的异常点击。

清华大学NetMan智能运维实验室则专注于异常检测、分析与预测,提出了多种算法和工具。该团队目前已经和交通银行、阿里巴巴、IBM等多家机构开展合作,实现了产学研相结合。

阿里巴巴研发了智能故障管理平台,以业务为导向,实现了基于机器学习的业务异常检测,准确及时发现故障。通过时间序列分析和机器学习,对未来一段时间的业务指标趋势进行预测。

针对业务异常时间,自动调用各类型AP接口实现一键切换,快速恢复业务异常。并针对业务异常事件自动拆解相关维度,逐层剥离定位故障原因。

目前该平台已经在阿里云上成功实践,故障发现准确率、故障发现召回率分别提升到80%和90%,每周节省因为误报而花费的操作时间约为29小时。

百度实现了基于智能流量调度的单机房故障自愈能力,将止损过程划分为统一的感知、决策、执行三个阶段,通过策略框架支持智能化异常检测、策略编排、流量调度,实现了单机房故障自愈能力。

京东金融实现了基于网络拓扑的根源告警分析,结合调用链,通过时间相关性、权重、关联规则算法、神经网络算法等,将告警分类筛选,快速找到告警根源,从而缩短故障排查及恢复时间。

京东金融还在其云计算数据中心应用了智能巡检机器人,提升了机房及数据中心的巡检效率和智能化管理水平,避免人工的错检和漏检,对巡检数据进行数据化管理和高效利用。

腾讯在其织云监控平台中建设了基于机器学习的时间序列异常检测方案,在百万条基于时间序列的日志信息中,以少量的时间实现了异常检测。

交通银行通过数据中心运维大数据平台的建设,将各类日志、告警等运维数据统一集中存储。通过关联分析、建模预测等方式发现日志、告警信息中潜在联系,并建设监控历史数据分析、监控告警智能分析以及日志智能检索分析等大数据运维应用场景,实现了事前智能预警、事后快速定位故障。

中国银行初步形成了“运维大数据仓库”、“运维数据分析平台”的计算框架,对系统日志、应用日志、监控数据和网络镜像包等全量数据进行集中存放和处理,并在异常检测、故障快速定位、系统容量预估和动态调配等多个场景中应用。

太平洋保险在智能运维方面实现了告警收敛,将多个告警做汇聚合并和主源分析,还开展了云脑项目以实现业务趋势预测和容量管理功能,还开发点点2.0 APP,实现风险监测和智能交互等功能。

阳光保险利用大数据和机器学习,实现了智能巡检、报警聚合、故障自愈及故障避免、自动发版与止损等多项功能。招商银行在性能容量评估、故障定位与诊断方面采用智能运维的方案,以应对业务高峰的需求。

上海银行张江数据中心启用了智能巡检机器人,对设备运行状态、机房环境、机柜微环境实时监测,保证数据中心状态实时可视、可控及数据的准确性。

Splunk公司擅长大数据的搜索与可视化,该公司以splunk平台为基础研发了智能运维管理平台,它将收集到的机器数据转化为有运维价值的见解,让用户能实时了解IT系统与技术构架现状,以便做出决策。

IBM公司认为智能运维的目标是对异常做出预警,在问题暴露前优化校正服务,以避免对业务造成影响。

为此,IBM提出了实时大数据分析驱动的新一代智能运维中心解决方案,对事件日志进行上下文历史挖掘分析、周期性规律分析、成对成组出现分析、日志相关与因果分析。

目前该方案目前已在交通银行得到实施与应用。不仅如此,IBM还发布了《金融行业智能运维AIOps实施建议白皮书》。

华为推出了基于大数据平台的FabricInsight数据中心网络智能分析平台。它基于 telemetry,采集全网真实流评估网络质量,进行网络异常流识别和分析,实现风险主动预测。

FabricInsight将应用和网络路径关联,能够对端口级问题进行快速定位,还支持百亿数据秒级检索,并实现时延、路径等多维度历史数据可视


智能运维的实施路径


智能运维的建设是从无到有的过程,是从局部单点应用的探索到单点能力完善,再到形成解决某个局部问题的一个过程,最终将各个智能运维场景相结合,形成一体化智能运维能力。

因此智能运维的实施路径可分为以下四个层面:

数据是智能运维落地的基础,首先需要建立运维大数据平台,对运维数据进行采集、分析、计算、存储,并定义标准化的指标体系,对运维数据进行萃取,积累大量的可用的运维数据。

以性能指标体系为例,可对操作系统、数据库、中间件等应用建立可供分析的性能指标体系,并在系统运行中获取性能数据,以此来刻画各应用的正常状态、异常状态的画像,为后续的检测、预测、分析等提供基础的运维知识图谱数据。

其次,应从实际出发,立足当前运维痛点,从单点运维场景切入,如建立时序数据智能异常发现、流量智能异常告警、数据库智能监控、智能网络日志分析等能力,由点到面进行智能化运维能力的建设,从而为后期进行局部智能化场景的实现打下基础。

以数据库智能监控能力为例,运维人员可实时获取数据运行状态指标,当数据库出现异常时,运维人员可通过历史数据回溯、数据比对等方式进行故障跟踪、异常指标分析,从而形成标准化故障排查、分析能力和经验,为后期的数据库智能故障预警、异常根因分析等局部场景提供基础支持。

局部场景智能化是指对运维场景中硬件、系统、网络、数据库、中间件等分别实现智能监控、异常预警、故障发现、故障分析、根因分析、故障自愈等闭环场景。

以网络异常为例,当智能运维系统检测到网络异常指标时,将出发告警时间,经运维人员确认故障后,智能运维系统将通过机器学习算法定位故障,然后调用自动化运维工具执行相应的修复操作,实现该场景下故障自愈。

局部场景智能化的实现,将使得故障发现、处理、排查效率得到极大的提升,有效保障业务稳定运行。同时,该能力的实现使得智能化运维具备场景化、标准化、自动化等能力。

一体化智能运维是智能运维系统发展的终极目标。该阶段不仅实现各运维场景智能化闭环,且智能运维能力与运维管理流程、运维组织架构、运维自动化是深入融合。

运维人员不再以发现故障、解决故障作为目标导向,转而专注业务运行状态,探索运维需求,定义并实现运维场景,丰富智能运维的广度与深度。

IT运维需求大

如今信息化、网络化高速发展,现代网络化的业务系统替代了传统纸质、磁带等物理信息媒介的业务传播方式,提高了各行各业业务效率。随着各行业相关业务系统的搭建,巨量相关计算机网络硬件设备的应用,随之而来的是成倍增长的运维问题和对IT运维工作的需求。

传统企业会遇到的IT运维难题

1. IT系统复杂,维护难度大

随着企业业务的增加,IT系统不断升级不同年代型号设备品牌不一,协调不同厂商发现并解决故障,运维复杂度增加,IT运维人员压力极大。

2. 技术人员流动性大

培养的技术人员积累了大量经验,但是由于其离职造成企业系统维护的困难。

3.技术更新滞后

由于各方面局限性,导致IT系统构架方案落后,在业务需求增长同时,技术应对能力有限。

4.可靠性低

由于技术人员短缺,传统人力手工运维系统故障问题定位难、时效难以保证;运维中出现复杂的问题,不能及时处理,甚至无法处理。

除此之外,各行业除了自身业务部门,还需要建立配备专业的IT部门,来维持业务系统正常运转,这无疑增加了企业负担。

IT运维有需求就有市场

IT行业的发展也给相关配套服务业带来了无限商机,将企业机构IT运维事务打包交给专业运维服务商成了很好的选择。

企业将本来自身执行的非核心的服务生产职能,以商业的形式承包给外部去执行的过程。不仅有利于提高核心竞争力,加速整合企业内部资源,而且可以使服务外包各方面节约成本,提高经济效率。”

IT运维未来展望

相比人工,计算机机器处理海量日志数据速度快,对于现在大型数据中心以GB甚至TB计的海量设备日志数据依靠人力审计去查阅日志发现定位问题往往是不现实的。

未来方向:大数据+人工智能 自动化运维

通过审计设备以及其他系统硬件设备日志等监控工具,汇总系统资源日志数据 ;通过运维策略模型形成IT运维大数据,并建立IT运维解决方案模型与算法交给人工智能去学习处理,逐步实现真正的自动化IT运维!

IT运维是一个定义相对广泛的职业,虽然很多用人单位都设有这类岗位,但对这一职业的工作内容要求却各不相同。而无论用人单位的需求是什么,在从业过程中让自己的专业技术不断提升、不断拓宽知识面,才能为自己争取更多的就业机会,获得更多的收入。那么,IT运维有哪些发展方向呢?在不同的职业方向上,我们又能做哪些努力呢?

技术方向

如果认为自己的性格更加适合从事技术层面的工作,可以逐步从初级技术人员向高级技术人员乃至技术专家逐级提升。例如:大数据运维专员、大数据运维工程师、高级大数据运维工程师、大数据运维专家这样的路线。

而想要成为高级、专家级的运维技术人员,仅熟练运用数据库、熟悉服务器及存储等基础技能自然是不够的,还需要了解主流厂商设备、相关工具以及服务器操作系统等知识,并且熟悉Linux下的应用,掌握基于Linux的开发技能,同时还需要精通至少一门编程语言,例如PHP、Java、JavaScript、Python等。

管理方向

有一些从事IT运维工作的人,不仅技术符合要求,而且善于管理。那么,这一类IT运维工作人员的职业发展方向应该是从基层IT运维岗位向运维经理、高级运维经理甚至CTO逐级提升。

对于这样的职业发展路线,除了需要具备丰富的项目经验,还需要具备系统设计优化能力,了解系统在运维过程中容易出现的问题以及恢复方法,并且掌握团队管理方法,能够充分调动部门员工积极性,提升团队工作效率。

转岗

在很多企业,从事IT运维职位的人员通常需要加班工作,如果工作一段时间后认为自己需要在工作方面投入的精力做出调整,可以通过转岗的形式来实现。例如转岗至运营、产品经理等岗位。

从事互联网行业的运营及产品经理岗位,需要培养自己分析运营数据、挖掘用户需求以及收集行业信息、竞争对手信息的能力,以便不断提升自己所负责的项目或产品在市场中的竞争力。因此,如果你有转岗意向,可以在从事IT运维岗位阶段,注重培养自己在数据整理及信息收集方面的技术,这在转岗后可以成为自己的强大优势。综上,从事IT运维工作,除了需要有清晰的职位规划,还应该不断提升自己的技术水平,这样才能保持自己在职场中的竞争力,为自己争取更多的可能性和更高的收入。如果暂时对自己未来的职业发展方向不清楚,可以在与其他部门工作人员接触的时候多了解其工作性质,这样自己将来无论做什么样的决定都有更多的参考信息。


上一篇:系统性能监控指标包括哪些方面?系统性能监控小工具怎么用?
下一篇:如何实现内网电话告警通知?
相关文章

 发表评论

暂时没有评论,来抢沙发吧~