运维事件复盘(运营工作复盘)

来源网友投稿 952 2023-02-11

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈运维事件复盘,以及运营工作复盘对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享运维事件复盘的知识,其中也会对运营工作复盘进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

如何做好运维工作

一、运维方法
技术层面:
随着信息技术的发展以及企业业务的不断扩张,运维人员所面临的系统架构越发的复杂,关联度越发紧密。对运维人员的要求也会越来越高,打造个个都是高手,对业务系统了如指掌。
1、需要运维人员快速转变观念,学会通过主动运维的方式应对复杂多变的 IT 问题,保证业务系统的稳定。
2、更多的站在客户的层面思考问题,解决问题。
3、使用集成的运维平台,在业务系统没有感知的情况下实现了业务的变更、升级。
运维文档层面:
一个好的系统或者项目,必定有很多的文档进行支撑。
1、系统建设前期,一定要做好系统的需求文档、设计文档、实施文档。在系统建设中要依据前期的文档进行实施和设计,并生成系统相关的问题总结文档和更新实施文档。
2、系统建设完成后,要基于系统的业务能力和使用对象编写操作手册和运维手册等。
3、业务在交付一定要文档同行。否则系统上线后问题层出不穷,导致运维人员手忙脚乱,不知道从何下手处理,往往会让运维人员绕很多的弯路,错失良机。
4、文档归类保存:文档也分好多种,比如配置文档、实施文档、设计文档、系统规范性文档、项目管理文档等等。做到一式两份,运维部门一份,档案室一份。
5、要求运维人员一定要具备相应的文档编写能力和整理能力。同时一定要严格按照之前的文档进行实施,有问题要学会及时沟通,并把修正后的问题更新到文档中。
6、建立知识库:把运维过程中出现的问题及解决办法和思路,另外最重要的是运维事件的总结,记录在案。
运维流程层面:
1、建立运维流程。要求运维人员一定要基于一个既定的规则来干活。
2、通过流程确定事件责任。业务人员专注点与运维人员的专注点不同,责任也不同。
3、使用ITIL 了(即 IT 基础架构库(Information Technology Infrastructure Library,ITIL,信息技术基础架构库)。ITIL 为企业的 IT 服务管理实践提供了一个客观、严谨、可量化的标准和规范。
二、运维人员技术
正所谓工欲善其事,必先利其器。很多的企业都在强化以用户服务为中心,专业技术为驱动的理念,可见拥有过硬的技术是多么的重要。
1、运维人员必须掌握的技能:
运维对技术的要求是很高的,首先运维人员要对自己所负责的系统有较深的理解,全程参与系统的设计、实施与运维。一定要具备相关领域的技术积累,有较丰富的设计或者排错经验
同时运维人员具备以下软实力:如沟通能力、合作心态和文档编写能力。
2、运维人员一定要对现在的主流技术有一定的涉猎(云计算、边缘计算、大数据、AIOps、人工智能、深度学习等等),要与时俱进。
3、经常参与线上或者线下的相关讨论和交流学习。了解目前流行的 IT 技术,并学习它,思考如何将其用于企业的业务中,为企业创造价值,提升运维效率。所以具备主流技术的捕捉能力,也是运维人员的必修课之一。
三、运维现场监控层面
监控的目的就是防患于未然。通过监控,运维人员能够及时了解到企业网络的运行状态。
一旦出现安全隐患,可以及时预警或者是以其他方式通知运维人员,让运维监控人员有时间处理和解决,避免影响业务系统的正常使用,将一切问题的根源扼杀在摇篮当中。现在的监控工具可以在监控指标触发时,自动修复一些故障,但是它最多帮你做些简单的自动化任务,更高阶的自动化任务需要运维人员具备较深的脚本和系统知识。

运维工作总结

运维工作总结(一)

20xx年运维部工作总结

20xx年业已尾声,我部门在公司的正确领导下,认真执行公司制定的各项制度及部门制度,努力改进工作中存在的不足,并取得了一定进步,2011年我部门总体工作特点是:运维任务基本饱和且多个项目同时进行,工作分散、繁琐,现就部门的各项工作进行一下简要总结。

Ⅰ.一年工作概况

1、上半年运维任务相对轻松,根据公司和部门要求集中进行内部优化,以及对以前工作进行总结,各负责人在现有条件基础上,统筹安排,有条不紊的完成公司规定的任务指标,没有因运维任务繁多而出现混乱。

2、下半年各主要项目陆续接手,同时部门内部各人员职责基本清晰,各负其责,整个部门运行基本踏入正轨,方案、合同、资料、服务流程运行良好,同时现场服务人员能认真负责的执行公司及部门的各项规定,掌握、收集、记录现场第一手资料,完成公司交办的各项任务。

3、本年度中部门与部门间、员工与员工间,都在工作中不断的磨合,发现问题、解决问题,各项工作并没有因此而停滞不前,经过一年时间的不断改进,对内公司各项工作渐渐运转自如,对外也赢得了相关客户的认可,一切正朝着令人欣喜的方向前进。

4、本年度人员安排如下:

5、本年度服务数据如下:

6、本年度部门收费回款如下:

7、运维和参与项目实施情况

一.全年部门完成运维任务:

①.解决招行成都分行监控中心大屏和两河公园停车场故障与项目尾款回款两个难题;

②.完成招行密押系统升级更新和其他系统运维任务;

③.完成安县交通卡口及金牛公安分局等其他客户监控系统运维任务;

二.全年部门完成参与项目实施任务:金牛公安分局视频资源管理系统

Ⅱ.但是总结本年度的工作,还有一些问题存在,有些工作亟待改进:

一、 备件管理

1、备件管理在2011年做得并不好,由于项目运维还处于成熟过程中,对运维备件要求未按照实际使用作计划,导致在运维过程中,无法对备件进行有效控制,在今后工作中要着重加强管理调度,坚持每月执行备件计划制度。针对备件需求和备件使用制定相应的领用制度,做到“谁提备件,谁负责”, 坚持限额领用制度。

2、加强备件现场使用的管理力度,对送达现场的备件,及时准确地进行核实,发现问题及时上报,对备件使用量大的、有特殊要求的须经过部门负责人或分管领导审核同意。

二、服务流程管理

1、服务流程是否合理决定服务的效率,在保证质量和安全的前提下,尽可能地提高服务及时性。原则:对同时发生的运维任务,合理调配人力、物力资源,统筹安排,因地制宜,在尽可能短的时间内完成更多的工作,做到人员效应最大化。优化运维方案,通过集体讨论,优先采用能够保证服务质量要求,方案可行而成本支出较小的运维方案,目的是成本控制,同时加强现场管理,合理调配有限资源,减少浪费。

2、现场服务人员和主管负责人、后勤人员要勤于沟通,有变化及时通报,做到信息畅通,避免因沟通不及时而出现重复派工、二次报修等问题。

3、进一步明确人员责任制,人负其责,公平合理,避免互相推诿、调度重复现象,提高人员意识。

4、进一步细化完善部门制度,规范人员工作流程、落实资料单据填写与收集整理、管理。

三、人员培训

1、技能培训:公司目前项目主要分环保、交通卡口和安防系统3大块,而运维部人员对所有项目的都还未做到详细熟悉细致了解和掌握的程度。

2、制度意识培训:运维部人员平时处理故障的情况较为繁重,在一定程度上对制度或资料填写有疏忽的现象,对资料收集整理保存以及查询带来了不便。

3、部门只做到了制度化和形式化,落实与实施的程度还不够。 Ⅲ.对公司制度和管理制度的建议

Ⅲ针对我们在维护过程中遇到的问题,我作出如下几点建议:

1、对公司的产品:现今我司自主产品基本没有,尤其是新项目,产品处于测试阶段,但这些产品已经在客户那里开始使用,所以出现问题较多,工程师都是一边学习一边维护。避免不了在客户面前向公司有关方咨询处理问题的方法,给客户留下了不好的印象;其次,是老产品的更新升级,设备运行也不稳定,造成维护量巨大,处理一个问题又出现新的问题。希望公司12在这方面得到改进。

2、配件管理:公司在配件备货方面存在较大问题,主要为相关配件公司没有配件库存,有的设备还需供应商提供;如:读卡器,摄像机等,这极大影响了服务效率,12此问题应首要解决。

3、服务流程及工作量:服务流程没有什么问题,主要是协调沟通机制还未建立起来,导致工程师不能与客户及时了解情况以及管理人员

不能了解实时状态。造成不必要的催促和二次报修。另外由于有些片区条件特殊,如其他县市区,由于离公司较远一个较为简单的任务需要派人去现场,这样就造成了一定的资源浪费和增大了服务成本,希望公司在新的一年有所考虑和改进。

4、人员培训:公司应加强人员在工作技能和公关技能方面的培训,提高人员意识和安全性、纪律性;部门拟定在12年对部门人员进行1月1次技能或理论培训,实时进行现场实际操作培训;另外部门决定在新年里对部门员工进行职称培训,力争在12年部门有1~2名项目经理,2名以上安防技术专业工程师。

Ⅳ.来年工作计划

1、人员划分:

2、制度流程:

进一步细化规范部门制度和流程,最大程度优化服务结构,监督人员落实和实施,做好资料收集整理、备品备件管理。

3、系统数据;

明年公司将上业务支撑管理系统,部门将根据系统数据做详细的

运维工作总结(二)

It运维服务工作总结

至20xx年10月底,0000000000000000000有限公司在0000000000000000公司的运维又届满一年的时间了。在这为期一年的运维工作当中,xxxx的业务飞速发展,设备数量不断增加,人员的技术水平和业务知识有了显著的提升。我们的队伍在技术水平和管理经验上也有了本质的提高。

一、 细致缜密的完成计划中的日常运维工作:

严把质量;服务至上;严格要求;技术领先。

1. 承接运维工作初始信息技术部的各位领导就对我们的运维工作给予厚望,并提出了认真完善服务水平的方针。我们在服务过程中严格按照这一要求,以对保障xxxx的发展,对用户负责的精神,把“严把质量,服务至上”的原则贯穿于日常工作的各个环节之中。使本运维期过程中的客户满意度有了非常显著的提高,多次获得了用户的认可。

2. 对于在工作中信息技术部提出的新要求、新方案,我们及时相应配合,本着“严格要求”的原则,对于提出的要求科学性的分析研究,及时提出完整周密的解决方案,并拟请用户试行或测试后实施。有力的保障了运维工作的及时有效性。

3. 对于提高服务业务技术水平上,按照信息技术部的统一规划,按时完成一系列的既定培训计划。按照“技术领先”的原则,通过技术上的培训提高了业务水平和解决故障的效率;通过制定有效的安全

机制和培训,健全了xxxx信息外包人员安全机制;通过保密制度的培训使运维人员能够树立自觉维护xxxx的`信息安全防范意识;通过客户服务意识的培训提高了客户的满意度。

二、 吸收先进经验,保质保量的完成运维的各项任务:

运维期内主机、服务器、网络和桌面均没有发生严重的生产安全事故,对于一些潜在的威胁也都在得到信息技术部门的批示下,审慎周密的完成了整改工作。运用先进的技术和经验提高劳动效率和运维工作质量:

1.运用先进的运维工具提高劳动效率。通过监控软件随时保持信息的及时性、可控性,一旦发生问题可以迅速定位和修复。

2.经过信息技术部指导,我们在运维工作中大量了采用WEB2.0技术。使我们在高效完成运维工作的情况下,为xxxx节约了大量的费用投入。

3.在工作的过程中注意新技术和新方法的学习和收集,对于有利于运维工作的成功方案及时整理并提交信息技术部。经过5年来的维护工作存储了大量的知识库信息。

三、 适应任务需要,及时解决运维过程中的遇到的问题:

1. 在运维过程中遇到突发问题及时与信息技术部门相关人员进行沟通,对于紧急情况的处理按照《应急预案》进行对应处理。在节假日安排主要人员进行值班和备勤,保障24小时均能及时相应。

2. 在运维工作过程中,积极协助新增设备的各项实施工作,获得了信息技术部的肯定;在到货、验收、集成方案和安装调试过程中提供全程保障;对于数据的迁移、备份,各人按照自己的职责,在制定详尽的计划后、经过信息技术部的批准严格按照方案实施;

3. 在配合一些公司的重大活动、事件时,为应对信息技术部人员不足的情况。我们一方面做好运维工作的情况下,另一方面派出部分或全部人员协助信息技术部的各项工作,以弥补其人力不足的状况;

4. 对于机房的升级改造过程中积极配合,全程派员监理施工过程,及时出具各种施工方案和设计资料。施工完成后及时

运维工作总结 运维工作总结(三)

2013年运维工作总结

回顾过去的一年,在市县公司工区领导指导下取得的一些成绩,但也有一些不足。现就运行工作总结如下:

一、努力学习新知识,掌握新设备,提高业务技能。

我所工作的单位是一所建设刚2年的变电站,有着配套齐全的办公设施和生活用具,有着慕煞旁人的生活和学习的条件。自从2011年4月进入110kV变电站工作以来,在市县工区领导关怀指导下努力改变以往工作模式与方法。从一个干好自己工作为己任,无关他人的自我态度,通过不断的学习和锻炼,逐步转变为互相帮助,共同完成与提高的协同办公新模式。记得建站投运之始,依然是每天跟班日出而作,日落而栖学习设备的理论和操作方法。终是初步接触110千伏变电站设备,在市工区领导平时工作担心忧郁的语气中,我常感无形的工作压力,正吞噬着我;而这,也正深深的激励着我,更加以自觉学习业务知识。

直到去年的某天,在一派新设备无故障的思想中,几乎把尚存脑海的业务知识遗忘殆尽的时,突然接到地调110kV624线路配合停电检修的操作指令,在市工区领导仍然有些担心的口吻中,我以正确的事故处理方法及操作步骤面对,在默认处理措施后,在长长的电话线那边,似乎看见领导在稍稍放松的神情里,正用赞许的眼光望着我。。。

二、立足本岗位,发挥党员模范带头作用。

作为变电站一名基层党员,爱岗敬业、忠贞不渝,在保持党的纯洁性工作和意识形态中,唯有加强变电站平时安全运行意识的养成和既定制度管理的落实,服务好人民群众,促进变电运维工作的全面发展,才是爱党、爱国家、爱公司应有的体现。我在过去的一年中主动学习党的方针政策,加强党性修养,进一步提高自己的政治觉悟和工作能力,在尽职履责中发挥模范带头作用。在公司基层变电站里营造和谐工作氛围,勇于担当,充分体现党员的优秀价值。

新形势下,多年的基层变电站工作,让我深深的知道迎峰度夏的工作中,公司和电网发展所面临的任务。我从本职岗位挑战出发,时时处处以身作则,用实际行动充分体现党员的执行力和实践力。在过去一年的围绕迎峰度夏保供电工作中,我明确时段、地段、人员和工作要求,落实测温、特巡等工作,包括设备过热、线路弧垂下降等原因引起的跳闸,全面开展变电设备状态巡视和检测工作。切实防止变电设备巡视维护不到位而引发的设备事件发生,通过努力,“迎峰度夏”保供电工作在两级工区领导大力指导下,取得了圆满成绩和效果。

三、继往开来,把一腔工作热情付诸于无限的为人民服务中去。

作为电力工作者,我们任何时候都应以党和企业的事业为重;任何时候都应践行“诚信、责任、创新、奉献”的核心价值观,高标准履行国家电网人的职责。在今年政治性用电“国庆”、“十八大”保电工作中,严格遵循各项规章制度,严防死守,密切配合电力调度,有力的保障了当地人民群众广播电视的正常收听,收看。我来自于基层变电站一名普通的职工,任何时候都应服从整体利益,恪尽职守,在以后的本岗位上,我也将一如既往扎实干好自身工作,干净干事,发挥党员模范带头作用,努力为当地经济的发展值好班、站好岗,向组织交上一份“组织放心,群众满意”的答卷。

运维工作总结(四)

**公司系统运维工程师年终个人工作总结及下年工作计划

时间一晃而过,弹指之间,2010年悄然而至,自从2010年3月份刚进入公司,我是第一次接触公司、接触通信行业、接触公司网络管理及维护。虽然跟我的专业和技能都一致,但所有的实际经验都是第一次,让我没有任何准备,同样也打消了任何顾虑,人生就是这样,所有的一切都是要从第一次开始,没有接触过、干过并不可怕,领导给了我机会,让我有了一次尝试、一次展现自己的平台,那么我一定会更加倍的努力做好工作才是最大的回报。并且也是对自己的一次肯定。经过一段时间的工作及陌生环境的磨合,专心钻研业务知识,努力提高理论知识和业务工作水平。遵纪守法,踏实工作认真完成领导交办的各项工作任务,使自己渐渐的融入和适应到新的工作环境中。过去的大半年里在领导和同事们的悉心关怀和支持帮助下,通过自身的不懈努力,在思想、学习和工作等方面取得了新的进步。现总结如下:

一、公司电脑日常维护工作

刚一开始接手工作的时候,发现公司大部分工作电脑都没有安装安全防护软件和升级系统补丁;员工随意安装系统及应用软件,致使公司局域网内病毒隐患严重、工作不稳定和系统崩溃,工作秩序被打乱,员工不严格要求自己,上班时间聊QQ、玩农场、看娱乐网站等;为此公司和个人工作经常受到影响,工作效率降低。针对这种情况,我采取了以下措施:

1、先对公司员工进行一次基本知识培训,让员工了解到计算机的正确使用方法,病毒防范,重要文件的备份等。从而大大提高了员工对电脑使用的熟练程度。

2、先恢复良好的秩序。电脑使用时如发现故障和需更改设置,必须先报告公司运维人员,由专门人员来进行专业及针对化的操作,个人不能私自进行改动,进行这样做的目的避免由于人为的盲目操作使某一台电脑的故障影响整个局域网内的其它工作,使故障扩大化,并延长了解决问题的周期。

3、使员工使用统一的、经过安全测试的系统及应用软件,安装、设置统一的杀毒软件、防火墙等安全防护软件,且经过努力实践,并在每台机器上设定了自动系统补丁升级及定期查杀规则。

4、对于个人的关键性数据资料、邮件进行路径转移备份,使这些数据远离危险故障点,避免意外丢失所带来的严重后果。操作系统进行常规定期备份,便于事后的还

原。

5、对于网络管理进行了监管工作,公司所有电脑安装了行为管理软件后,员工工作效率逐步提高,自觉性得到明显改进,从而净化了公司网络办公环境。

经过一段时间的贯彻和工作,先前的混乱现象得到有效控制,现公司的十余台电脑,工作状态稳定,没有出现大面积的系统崩溃和故障。

二、网络的日常维护

路由器及交换机的维护管理,确保公司网络运行正常,员工正常利用网络资源。加强路由器的规则设置,优化外网接口,内部员工合理地分配带宽流量,使公司的网络能稳定有效地工作。

三、公司网络制度管理和完善

公司经过一段时间的运转,各个部门的规章制度通过大家一起研究、探讨、立会并完善制定了各项规章制度,计算机管理也形成了制度,大家按章办事,使之成为一种工作习惯。同时公司的资产管理及日常的文书表格非常混乱和环节上的缺失。为此特地制作了一批表格、登记申请单及统计表。使得公司资产和资源得到有效的管理和控制,杜绝管理上的失控和资产流失。

四、公司服务器平台管理与维护工作

公司发展逐步扩大,对于公司所有的业务支撑平台-服务器,为重中之重;本年度我司服务器相应出现几次重大故障,分别如下:

1、网络故障七次,重大一次,因服务器遭DDOS攻击,导致我司服务器无法正常工作。事后通过紧急处理后得以恢复正常。其它几次分别为机房断电、网络升级、电信与联通DNS解析故障影响到我司服务器平台网络连接不正常。

2、系统故障三次,其中一次为短信平台服务器系统文件损坏,导致系统崩溃。经过技术部采用紧急预案措施在两小时内得以恢复系统。

3、其它故障共计5次,因联通网关溢出,无法与我司IVR服务器数

运维工作总结 运维工作总结(五)

运维服务工作总结

至2014年底,银海科技有限公司在蓝湾科技有限公司的运维又届满一年的时间了。在这为期一年的运维工作当中,运维的业务飞速发展,设备数量不断增加,人员的技术水平和业务知识有了显著的提升。我们的队伍在技术水平上也有了本质的提高。

一、 细致缜密的完成计划中的日常运维工作: 严把质量;服务至上;严格要求;技术领先。

1.各位领导就对我们的运维工作给予厚望,我们提出认真完善服务水平的方针。我们在服务过程中严格按照这一要求,以对保障用户的权益,对用户负责的精神,把“严把质量,服务至上”的原则贯穿于日常工作的各个环节之中。使本运维期过程中的客户满意度有了非常显著的提高,多次获得了用户的认可。

2. 对于在工作中我们树立新要求、新方案,本着“严格要求”的原则,对于提出的要求科学性的分析研究,及时提出完整周密的解决方案。有力的保障了运维工作的及时有效性。

二、 吸收先进经验,保质保量的完成运维的各项任务:

运维期内主机、服务器、网络和桌面均没有发生严重的生产安全事故,对于一些潜在的威胁也都在得到信息技术部门的批示下,审慎周密的完成了整改工作。运用先进的技术和经验提高劳动效率和运维工作质量: 1.运用先进的运维工具提高劳动效率。一旦发生问题可以迅速定位和

修复。

2.在工作的过程中注意新技术和新方法的学习和收集,对于有利于运维工作的成功方案及时整理并提交信息数据部。

三、 认真完成运维工作中的汇报、总结每个故障点率和分析原因: 自2014-5-27,截止2014-12-31根据工作记录汇报共完成1263个报修,平均每天8.2个报修(其中不包括潜在故障点),服务项目有:安装,维修,培训,会议保障,综合布线,巡检等。服务分类有PC硬件,办公软件,网络连接,网络设备,打印机,电话传真,健康巡检等。 以下是图标分析:

1.其中PC硬件服务分类如下

分类 服务数

KVM 8

黑屏 26

蓝屏 13

装机 13

其他 61

2.办公软件服务分类如下:

分类项目 服务数量

office 47 IE 14 金宏 106 系统 101 其他 64

3.打印机服务分类如下:

4.电话传真服务分类如下:

5.网络连接服务分类如下:

6.网络设备服务一共20个!

以上数据均不包括潜在故障

四:总结工作

2014年已经过去,在自己的工作中还有很多的不足,还不能让客户达到百分百满意,对客户的服务也没有完善,对此问题我总结了一下原因,客户投诉最多的是响应时间慢,桌面维护这个工作工作量非常的不稳定,有时候工作量少,很清闲,有时候一天近30个服务,这是不受控制因素。而且还有潜在故障点,导致响应时间慢,从数据上显示2014.05.27到2014.12.31日一共有77个综合布线,平均一周两次工程布线,而布线最起码需要一个人员,而服务人员一共2人,另外一个人就有些力不从心了。每个人总会有些事情,需要请假,这些原因都导致了响应时间慢,还有一些是技术方面的原因,有时候我没

运维工作总结(六)

运维部上半年工作总结

半年来,我部门在公司领导的关心、帮助和大力支持下,扎实有效的开展各项工作,圆满完成了上级下达的各项维护考核指标。

一. 运营维护部全体同志充分发扬不怕苦不怕累,克服困难

连续作战的精神,工作中通力合作有力的保证了杆路、信号的正常传输。

二. 城网日常维护。半年无节假日累计加班72天。值班365

小时值宿180人次。处理用户终端故障4000余件,处理突发性和特大故障20件。其中光缆故障15件。

三. 线路整改。改架干线1000米。更换-5电缆3000米。

更换-9电线2000米。更换光接机7台、供电器5台放大器28台、分支分配器300个。城网光缆改造楼房1个小区。100户。有效地提高了了用户收视指标。共架光缆0.5公里。新增光节点1个。

四. 光缆维护队半年维护光缆故障200余件。共计熔接光纤

2300余芯。统一规划完成光缆改造10余公里。整理乡

如何做好运维监控?

统一监控平台,说到底本质上也是一个监控系统,监控的基本能力是必不可少的,回归到监控的本质,先梳理下整个监控体系运维事件复盘

① 监控系统的本质是通过发现故障、解决故障、预防故障来为运维事件复盘了保障业务的稳定。

② 监控体系一般来说包括数据采集、数据检测、告警管理、故障管理、视图管理和监控管理6大模块。而数据采集、数据检测和告警处理是监控的最小闭环,但如果想要真正把监控系统做好,那故障管理闭环、视图管理、监控管理的模块也缺一不可。

一、数据采集

1、采集方式

数据采集方式一般分为Agent模式和非Agent模式;

Agent模式包括插件采集、脚本采集、日志采集、进程采集、APM探针等

非Agent模式包括通用协议采集、Web拨测、API接口等

2、数据类型


监控的数据类型有指标、日志、跟踪数据三种类型。

指标数据是数值型的监控项,主要是通过维度来做标识。

日志数据是字符型的数据,主要是从中找一些关键字信息来做监控。

跟踪型数据反馈的是跟踪链路一个数据流转的过程,观察过程中的耗时性能是否正常。

3、采集频率

采集频率分秒级、分钟级、随机三种类型。常用的采集频率为分钟级。

4、采集传输

采集传输可按传输发起分类,也可按传输链路分类。

按传输发起分类有主动采集Pull(拉)、被动接收Push(推)

按传输链路分类有直连模式、Proxy传输。

其中Proxy传输不仅能解决监控数据跨网传输的问题,还可以缓解监控节点数量过多导致出现的数据传输的瓶颈,用Proxy实现数据分流。

5、数据存储

对于监控系统来说,主要有以下三种存储供选择

① 关系型数据库

例如MySQL、MSSQL、DB2;典型监控系统代表:Zabbix、SCOM、Tivoli;

由于数据库本身的限制,很难搞定海量监控的场景,有性能瓶颈,只在传统监控系统常用

② 时序数据库

为监控这种场景设计的数据库,擅长于指标数据存储和计算;例如InfluxDB、OpenTSDB(基于Hbase)、Prometheus等;典型监控系统代表:TICK监控框架、 Open-falcon、Prometheus

③ 全文检索数据库

这类型数据库主要用于日志型存储,对数据检索非常友好,例如Elasticsearch。

二、数据检测

1. 数据加工

① 数据清洗

数据清洗比如日志数据的清洗,因为日志数据是非结构化的数据,信息密度较低,因此需要从中提取有用的数据。

② 数据计算

很多原始性能数据不能直接用来判断数据是否产生异常。比如采集的数据是磁盘总量和磁盘使用量,如果要检测磁盘使用率,就需要对现有指标进行一个简单的四则运算,才能得到磁盘使用率。

③ 数据丰富

数据丰富就是给数据打上一些tags标签,比如打上主机、机房的标签,方便进行聚合计算。

④ 指标派生

指标派生指的是通过已有的指标,通过计算得出新的指标。

2. 检测算法

有固定规则和机器学习算法。固定算法是较为常见的算法,静态阈值、同比环比、自定义规则,而机器学习主要有动态基线、毛刺检测、指标预测、多指标关联检测等算法。

无论是固定规则还是机器学习,都会有相应的判断规则,即常见的< =和and/or的组合判断等。

三、告警管理

1. 告警丰富

告警丰富是为了后续告警事件分析做准备,需要辅助信息去判断该怎么处理、分析和通知。

告警丰富一般是通过规则,联动CMDB、知识库、作业历史记录等数据源,实现告警字段、关联信息的丰富;通过人工打Tags也是一种丰富方式,不过实际场景下由于人工成本高导致难以落地。

2. 告警收敛

告警收敛有三种思路:抑制、屏蔽和聚合

① 抑制

即抑制同样的问题,避免重复告警。常见的抑制方案有防抖抑制、依赖抑制、时间抑制、组合条件抑制、高可用抑制等。

② 屏蔽

屏蔽可预知的情况,比如变更维护期、固定的周期任务这些已经知道会发生的事件,心里已经有预期。

③ 聚合

聚合是把类似或相同的告警进行合并,因为可能反馈的是同一个现象。比如业务访问量升高,那承载业务的主机的CPU、内存、磁盘IO、网络IO等各项性能都会飙升,这样把这些性能指标都聚合到一块,更加便于告警的分析处理。

3. 告警通知

① 通知到人

通过一些常规的通知渠道,能够触达到人。

这样在没有人盯屏的时候,可以通过微信、短信、邮件触发到工作人员。

② 通知到系统

一般通过API推送给第三方系统,便于进行后续的事件处理

另外还需要支持自定义渠道扩展(比如企业里有自己的IM系统,可以自行接入)

四、故障管理

告警事件必须要处理有闭环,否则监控是没有意义的。

最常见还是人工处理:值班、工单、故障升级等。

经验积累可以把人工处理的故障积累到知识库里面,用于后续故障处理的参考。

自动处理,通过提取一些特定告警的固化的处理流程,实现特定场景的故障自愈;比如磁盘空间告警时把一些无用日志清掉。

智能分析主要是通过故障的关联分析、定位、预测等AI算法,进一步提升故障定位和处理的效率;

1. 视图管理

视图管理也属于增值性功能,主要是满足人的心理述求,做到心中有底,面向的角色很多(领导、管理员、值班员等)。

大屏:面向领导,提供全局概览

拓扑:面向运维人员,提供告警关联关系和影响面视图

仪表盘:面向运维人员,提供自定义的关注指标的视图

报表:面向运维人员、领导,提供一些统计汇总报表信息,例如周报、日报等

检索:面向运维人员,用于故障分析场景下的各类数据检索

2. 监控管理

监控管理是企业监控落地过程中的最大挑战。前5个模块都是监控系统对外提供的服务功能,而监控管理才是面向监控系统自身的管理和控制,关注真正落地的过程的功能呈现。主要有以下几个方面:

配置:简单、批量、自动

覆盖率:监控水平的衡量指标

指标库:监控指标的规范

移动端:随时随地处理问题

权限:使用控制

审计:管理合规

API:运维数据最大的来源,用于数据消费

自监控:自身稳定的保障

为了实现上述监控六大基础能力模块,运维事件复盘我们可以按如下架构设计我们的统一监控平台。

主要分三层,接入层,能力层,功能层。

接入层主要考虑各种数据的接入,除了本身Agent和插件的采集接入,还需要支持第三方监控源的数据接入,才能算一个完整的统一监控平台。

能力层主要考虑监控的基础通用能力,包含数据采集模块、数据存储模块、数据加工模块、数据检测模块、AI分析模块。

功能层需要贴近用户使用场景,主要有管理、展示两类功能,在建设的过程中可以不断丰富功能场景。

另外,考虑到数据的关联关系,为未来的数据分析打下基础,监控和CMDB也需要紧密联动,所有的监控对象都应该用CMDB进行管理,另外,还可以配置驱动监控为指导理念,实现监控的自动上下线,告警通知自动识别负责人等场景,简化监控的维护管理。

为了统一监控平台能够在企业更好的落地,我们需要配备对应的管理体系,其中最重要的是指标管理体系。

指标管理体系的核心理念:

监控的指标体系是以CMDB为骨架,以监控指标为经脉,将整个统一监控平台的数据有机整合起来。

贯穿指标的生命周期管理,辅以指标的管理规范,保障监控平台长久有序的运行。

从企业业务应用的视角出发,一般将企业监控的对象分为6层,也可以根据企业自己的情况进行调整:

基础设施层

硬件设备层

操作系统层

组件服务层

应用性能层

业务运营层

关于运维事件复盘和运营工作复盘的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 运维事件复盘的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于运营工作复盘、运维事件复盘的信息别忘了在本站进行查找喔。
上一篇:物联网智能医疗离我们还有多远
下一篇:运维事件服务请求时间(运维事件处理流程)
相关文章

 发表评论

评论列表