AIOps 一场颠覆传统运维的盛筵
500
2023-02-22
本文目录一览:
1、电话报修流程:
最传统的报修流程,由企业员工直接通过电话打给信息中心的值班人员,告知基本的故障原因,由值班人员填写报修工单(包括故障发生时间、物理位置、IP地址、故障原因等),填写完毕提交后,Apex OSSWorks将根据故障类型自动将此工单派发到相应运维组(如网络设备组、服务器组、数据库组、应用系统组等)的一线运维技术员。
一线运维技术员可选择电话支持或者是上门服务的方式与用户沟通解决,如仍然无法解决该故障,将进行工单升级转派,由技术水平更高一级的专家(或者信息中心主任)来解决。最终故障解决完后将解决方案保存到运维知识库中,并进行用户回访满意度调查。
2、Apex网管系统报修流程:
该流程主要是处理严重的网络故障或设备硬件故障,Apex网管系统通过智能阈值技术监测所有网络设备及服务器的性能状态,而一旦出现负载过大、性能低下、链路中断或者设备宕机的故障,将由Apex网管系统自身生成一个报修工单,并根据故障原因类型自动派发给相应运维组的一线运维技术员。
由Apex OSSWorks自动派发后,后面故障处理流程同1,最终也要形成运维知识库,不过不用进行用户回访了。
3、自助运维服务台报修流程:
该流程为最理想最具效率的故障报修流程。在此流程报修之前,用户或企业员工会先登陆到Apex 自助运维服务台去进行相关网络的自查,包括端口链路检查、参考自助FAQ等等,这样将会屏蔽掉决大多数的用户故障。
而碰到棘手的问题,通过自助服务台也无法解决的故障,用户可以填写报修单进行故障申告,Apex OSSWorks运维平台将根据故障类型自动派发给相应运维组的一线运维技术员。
由Apex OSSWorks运维平台自动派发后,后面故障处理流程同1,最终也要形成运维知识库,并且用户也可以在自助运维服务台里看到自己申请工单的处理进度,问题解决后还需要填写满意度调查。
(1)建立自动化运维管理平台
IT运维自动化管理建设IT运维启动事件升级程序的第一步是要先建立IT运维IT运维启动事件升级程序的自动化监控和管理平台。通过监控工具实现对用户操作规范IT运维启动事件升级程序的约束和对IT资源进行实时监控IT运维启动事件升级程序,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容IT运维启动事件升级程序,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如,在自定义周期内进行自动触发完成对IT运维的例行巡检,形成检查报告。包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。
(2)建立故障事件自动触发流程,提高故障处理效率
所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。
(3)建立规范的事件跟踪流程,强化运维执行力度
IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。
(4)设立IT运维关键流程,引入优先处理原则
设立IT运维关键流程,引入优先处理原则是指要求CIO定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。
总之,实现IT运维的自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。
大量实践表明,在企业IT项目的生命周期中,大约80%的时间与IT项目运营维护有关,而该阶段的投资仅占整个IT投资的20%,由此形成了典型的“轻服务、重技术”现象。
Gartner的一项调查发现,在经常出现的问题中,来自技术或产品(包括硬件、软件、网络、电力失常及天灾等)失误的方面其实只占了20%,而流程方面的失误却占了40%,人员疏忽方面的同样占了40%。
流程失误包括变更管理没有做好、超载、没有测试等程序上的错误或不完整,人员疏失包括忘了做某些事情、训练不足、备份错误或安全疏忽等。
为什么IT部门需要RPA?
RPA应用于IT领域,可实现软件安装、FTP下载、上传、邮件处理、文件夹监控、文件处理、服务器监控等流程的自动化。
在企业中,RPA可帮助IT部门系统管理、解决IT请求,通过标准化IT流程来减少人为失误。通过快速响应,IT处理时间可缩短50%-90%,服务质量可提高70%。集成来自不同供应商的各种产品,使得IT管理更加高效。而自动化工作流,使新员工更易上手。
通过RPA的应用,IT运维可以实现日常任务处理和运维流程自动化,从而提高效率,降低风险,促进运维组织风险应对能力、变化适应能力、合规遵从能力升级。
在IT运维管理向自动化转型的趋势中,RPA使得人力资源不再浪费,让运维人员有更多精力和时间投入到整个服务架构的梳理、设计中。
RPA也大大简化了传统意义上的运维工作,让运维更加主动、灵活、高效,能够紧跟企业业务发展的步伐,更可靠,更智能,为企业的发展变革持续提供有力支撑。
RPA应用于IT服务十大场景
1
服务器和应用程序监控
对每个IT部门来说,服务器崩溃、停机都是噩梦般的存在。任何一次意外停机或崩溃,都可导致数据丢失、作业停止,从而给企业带来重大收入损失。
为避免这种不必要的损失并确保业务的连续性,企业可选择在其服务器和应用程序监控过程中使用RPA。机器人自动关闭、重新引导、重新配置和重新启动各种类型的服务器。它可以帮助企业降低IT运营成本,并在非工作时间内计划停机时间,节省成本。
2
日常维护和监控
IT系统的日常监控和维护对于避免可能影响业务的计划外停机或意外事件非常重要。企业可应用RPA对服务器、应用程序和其他系统执行例行检查,以确保它们正常运行。
RPA机器人会自动标记每一个问题,提醒IT部门进行修改,以确保业务连续性,直到系统修复并完全正常运行。
3
IT技术支持
在没有增加自动化能力的情况下,IT支持团队常常被简单而耗时的查询所淹没。
RPA机器人可以围绕IT应用和基础架构自动执行各种复杂的系统管理任务,包括:1)定期诊断。RPA机器人的定期诊断工作使技术支持团队领先于其他团队,并让他们在常规用户注意到可能的故障之前做出响应。2)故障修复。
4
电子邮件处理和分发
手动创建电子邮件ID会耗费大量时间。RPA通过自动向电子邮件系统添加新用户来帮助IT部门。RPA遵循工作流来创建电子邮件ID,其中包括在创建电子邮件ID并将其添加到组织内的不同分发列表之前验证用户凭据的一系列步骤。
5
密码重置和解锁
IT部门的许多时间往往花在了重置用户密码,或解锁用户登录尝试失败后的帐户上。RPA可以管理这些任务,软件交叉验证用户的详细信息并重置密码或解锁帐户。不仅减少了用户的等待时间,并且还节省了IT部门的时间,使其专注于其他重要任务。
6
备份和恢复
手动执行大批量的备份和还原流程,耗时费力。应用RPA机器人自动执行该流程,有助于节省团队时间,并减少因重复任务而导致的人为错误。一旦工作流与自动化集成,备份和恢复工作就可以自动、准确地执行。此外,RPA机器人还可以根据技术的变化轻松地进行调整,从而确保业务连续性。
7
批处理
批处理涉及调度非交互式作业以优化计算资源的使用,这个过程通常需要花费大量时间。IT部门可以使用RPA来自动执行诸如重启和恢复、文件管理、安全系统集成、发送操作员警报和分类服务类型等活动。
8
自动化测试
常见的测试场景都可以使用RPA工具自动执行,并且这些测试在每个版本之后运行,以确保新的缺陷不会引入代码中。
9
系统诊断
很多监视工具都会面临同样一个问题,就是有时不能很好地适应完全异构的环境。RPA可以无缝衔接现有的监视系统,处理环境、技术和系统。机器人模拟人工操作,进行系统间的迁移,生成报告并遵照一定的规则频率发送到维护团队。
10
软件安装
无论是在本地,还是通过SSH或RDP(远程桌面),IT团队都可以依靠RPA来安装具有相互依赖组件的复杂应用程序。一旦经过开发和测试,通过RPA安装和更新软件的解决方案就可以替代人力进行重复性的操作,特别是对于那些必须支持数百个技术软件的团队,实现软件批量化自动安装。
发表评论
暂时没有评论,来抢沙发吧~