睿象云智能告警平台的分派策略
649
2022-12-26
本文目录一览:
在软件产品的整个生命周期中运维工程师都需要适时地参与并发挥不同的作用,因此运维工程师的工作内容和方向非常多:
1、事件管理:目标是在服务出现异常时尽可能快速的恢复服务,从而保障服务的可用性;同时深入分析故障产生的原因,推动并修复服务存在的问题,同时设计并开发相关的预案以确保服务出现故障时可以高效的止损。在这方面主要工作内容有:
2、问题发现:设计并开发高效的监控平台和告警平台,使用机器学习、大数据分析等方法对系统中的大量监控数据进行汇总分析,以及在系统出现异常的时候可以快速的发现问题和判断故障的影响。
3、问题处理:设计并开发高效的问题处理平台和工具,在系统出现异常的时候可以快速/自动决策并触发相关止损预案,快速恢复服务。
扩展资料:
前景
运维所涉及的知识面、专业点非常广,对从业人员素质也要求非常高,运维工作在大型互联网公司也越来越重要。随着互联网的高速发展、网站规模越来越大、架构越来越复杂,对网站运维工程师的需求也会越来越急迫,特别是对有经验的运维人才需求量大,而且是越老越值钱。
1、电话报修流程:
最传统的报修流程,由企业员工直接通过电话打给信息中心的值班人员,告知基本的故障原因,由值班人员填写报修工单(包括故障发生时间、物理位置、IP地址、故障原因等),填写完毕提交后,Apex OSSWorks将根据故障类型自动将此工单派发到相应运维组(如网络设备组、服务器组、数据库组、应用系统组等)的一线运维技术员。
一线运维技术员可选择电话支持或者是上门服务的方式与用户沟通解决,如仍然无法解决该故障,将进行工单升级转派,由技术水平更高一级的专家(或者信息中心主任)来解决。最终故障解决完后将解决方案保存到运维知识库中,并进行用户回访满意度调查。
2、Apex网管系统报修流程:
该流程主要是处理严重的网络故障或设备硬件故障,Apex网管系统通过智能阈值技术监测所有网络设备及服务器的性能状态,而一旦出现负载过大、性能低下、链路中断或者设备宕机的故障,将由Apex网管系统自身生成一个报修工单,并根据故障原因类型自动派发给相应运维组的一线运维技术员。
由Apex OSSWorks自动派发后,后面故障处理流程同1,最终也要形成运维知识库,不过不用进行用户回访了。
3、自助运维服务台报修流程:
该流程为最理想最具效率的故障报修流程。在此流程报修之前,用户或企业员工会先登陆到Apex 自助运维服务台去进行相关网络的自查,包括端口链路检查、参考自助FAQ等等,这样将会屏蔽掉决大多数的用户故障。
而碰到棘手的问题,通过自助服务台也无法解决的故障,用户可以填写报修单进行故障申告,Apex OSSWorks运维平台将根据故障类型自动派发给相应运维组的一线运维技术员。
由Apex OSSWorks运维平台自动派发后,后面故障处理流程同1,最终也要形成运维知识库,并且用户也可以在自助运维服务台里看到自己申请工单的处理进度,问题解决后还需要填写满意度调查。
关于运维事件管理和运维事件管理平台界面的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 运维事件管理的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于运维事件管理平台界面、运维事件管理的信息别忘了在本站进行查找喔。发表评论
暂时没有评论,来抢沙发吧~