停机不必人人负责:创建一种IT问题责任制文化

来源网友投稿 847 2022-09-17

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

新型冠状病毒的大流行是人类历史上一次前所未有的经历。尽管大流行病并不新鲜,但这次流行病发生在2020年,这是一个生活和工作都离不开数字化服务的时代。为躲避正在蔓延的疫情,人们将工作和生活转移到了互联网上,因此我们的企业不得不尽快进行调整,转向全面拥抱数字化平台。



这次疫情让我们看到了在线服务的重要性,与此同时,企业对服务中断的响应效率也变得比以往任何时候都更加重要。尽可能地缩短停机时间,不断提升客户的服务体验,已成为企业保持核心竞争力的关键。

Computing Research 采访了150名员工人数超500人的企业 IT 决策者,针对企业数字化转型速度,事件响应处理,以及采用自动化事件响应的意愿三方面进行了调研。此次调研涉及行业广泛,公共和私营领域兼顾,超三分之一的调查对象为IT总监或以上级别人士,近一半为经理级别。参与调研的组织机构,其经营范围涵盖零售和批发、运输和物流、媒体、采矿、工程、建筑、农业、制造、商业、法律、教育和金融。

调研结果显示,身处新冠疫情风暴之中,确保 IT 系统平稳有效地运行从未如此这般重要。出现问题时,企业需要采取及时有效的响应。而且这种响应需要以所有制文化为基础,实现高度的组织化和自动化,这样故障处理过程才能转化为运维经验,运维经验才能转化为管理最佳实践。疫情防控常态化下的商业竞争中,面对一直虎视眈眈想要抢夺市场空间和客户的竞争对手,我们的企业需要反应更加敏捷,才能保持竞争优势。



主要发现


• 78%的企业指出他们提供数字化服务的速度已经加快。


• 72%的企业能在一小时内解决P1事件,但45%的企业需要花几天时间来解决不太紧急的影响客户事件,如网站访问延迟。• 74%的企业在处理问题时将自己描述为“反应型”或“响应型”。只有23%的企业是“主动型”。• 通常会有多达7个独立团队参与事件响应。• 只有25%的企业有事件的自动响应能力。• 告警疲劳是一个严重问题,绝大多数企业认为解决这个问题的关键是自动化。• 事件响应的复杂性和成熟度与DevOps的采用直接相关。


新冠疫情对数字化转型


绝大多数企业都加快了其数字化转型的计划。2020年后未做改变的机构相对较少。


 1Covid-19是否使您的企业加速了数字化服务交付?

21%的调查对象表示,他们在很大程度上加快了数字化服务交付,57%的调查对象正在适度加快步伐。这意味着,新冠疫情迫使大部分企业加快了数字化转型速度。

2:下列哪项最符合您的企业在数字运营进程中的定位?


数字化和云迁移通常相伴相随,对多数机构来说这会导致少量中断状况和问题的出现。业务中断被定义为彻底失灵,问题被定义为相对不严重的故障,如网站访问延迟。


 这项调查要求访问对象对自己的企业在数字运营进程中的状态予以定位,结果显示各企业在数字化成熟度上的表现差异很大。 占比最大(43%,将近一半)的是“响应型”,他们对问题及应对问题的响应进行了明确定义;将近三分之一(31%)是“反应型”,在问题突显时才做出响应。 大约 23% 是主动型,具有自动化的跨团队响应能力;而极少数是“预防型”,会在问题发生前进行预测。


事件响应


关于事件响应处理(不考虑严重程度),《Computing》的研究发现这并不是一个简单的过程。 多个团队和多项技能都会被包含其中。


在故障响应中的协作是必不可少的,调查显示至少7个团队或个人会参与其中。


3:在故障发生时(不考虑优先级),以下哪些团队可能会参与解决?

不可否认,这是一项团队工作,分别涉及从开发到运维再到安全,服务台,网络,应用管理和云计算等各部门,所有这些部门都要发挥作用。 因此,协作至关重要。


图4 :当中断或问题发生时,如何协作应对?

很显然,在应对任何故障时,都需要大量的组织工作。我们的调查对象在对故障的反应上有相当大的差异。其中四分之一有自动化响应能力,会提醒合适的团队去处理。大约40%的企业(占比最大)由一位集中管理人员决定谁来做出响应。还有20%的机构在做出响应前先在团队间进行讨论,这意味着在领导层面上的某种真空,并有可能就谁应该对该问题负责而产生浪费时间的争论,这绝不是一种人人都会做出的选择。令人担忧的是,15%的机构形容自己是“临时”做出响应,有可能是一种匆匆做出的无组织的响应。


图 5a : 解决高优先级问题(如中断问题)需要多长时间?

图 5b : 解决低优先级事件(如网站延迟)需要多长时间?

至于解决高优先级问题(如中断)所需的时间,47%(将近一半)的机构会在一小时或更短的时间内解决。相比之下,只有不到1%的机构分别会在5分钟内和超过一天的时间内解决。令人担忧的是,23%的机构解决一个严重问题会花费数小时。


像网站延迟这类不太严重的问题明显需要更多的时间来处理。44%(近一半)的机构可能需要几个小时,而45%的机构可能需要几天才能解决。大约10%的机构需要几周时间来解决,而2%的机构需要经过更长的时间后才会引起对这类问题的关注。

上面两个图的数据间有很强的相关性应该不足为奇:对问题缺乏有组织的响应的企业解决问题的时间最长。这一点很重要。IT部门解决中断问题以及修复影响客户体验的小问题的时间直接关系到竞争优势。

有效地组织对问题的响应,鼓励个人和团队承担对相应问题和该问题解决方案的责任,这样做会带来竞争优势。相反,如果不这样做则会导致员工时间的浪费,有可能形成一种无人负责的指责文化,对员工的士气产生负面影响(要知道在我们现在所处的个体关联松散的世界中,维持这份士气已经变得愈发具有挑战性),对系统和数字体验的改进变慢,并且很容易使业务流失到竞争对手那里。


上一篇:AIOps需要翻越的“三座大山”
下一篇:睿象云入围 | 腾讯云原生加速器首期成员名单
相关文章

 发表评论

暂时没有评论,来抢沙发吧~