告警管理概述,浅谈告警管理能力成熟度模型

知梧 1401 2022-09-23

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本文向你介绍关于告警管理概述,浅谈告警管理能力成熟度模型。

告警管理提供了可靠的告警收敛、通知、自动升级以及其他功能,帮助您快速检测和修复业务告警。本文主要介绍了告警管理的实现原理和优势。

背景信息

SAE集成了ARMS告警管理功能。ARMS新版告警管理功能仅对2021年04月30日0点之后开通SAE的阿里云账户开放。

实现原理

告警管理-实现原理


序号

描述

将自建Prometheus、ARMS、日志服务、云监控或自定义事件集成到ARMS告警管理中。

ARMS告警管理将集成的所有事件汇总并去重。

ARMS告警管理通过静默过滤,过滤掉不重要的、不需要发送告警通知的事件。

ARMS告警管理通过通知策略和升级策略对所有告警事件进行分派,并通过电话、短信、邮件、钉钉等方式发送告警通知,其中,通过钉群发送的告警通知可以在钉钉群中管理告警。

优势

当业务部署到阿里云并使用ARMS产品监控业务后,如果使用告警管理功能处理业务告警,ARMS告警管理能从以下几点来提升您的运维效率。

  • 集成事件后管理更高效。

    • 告警管理默认支持一键化集成阿里云常见的监控工具,并支持更多的监控工具手动接入,方便统一维护。

    • 事件接入模块稳定,能提供7x24小时的无间断事件处理服务。

    • 处理海量事件数据时可以保证低延时。

  • 及时准确地将告警通知给联系人。

    • 配置通知规则,对事件合并后再发送告警通知,减少运维人员出现通知疲劳的情况。

    • 根据告警的紧急程度选择邮件、短信、电话、钉钉等不同的通知方式,来提醒联系人处理告警。

    • 通过升级通知对长时间没有处理的告警进行多次提醒,保证告警及时解决。

  • 帮助您快速便捷地管理告警。

    • 联系人能通过钉钉随时处理告警。

    • 使用通用告警格式,联系人能更好的分析告警。

    • 多个联系人通过钉钉协同处理。

  • 统计告警数据,实时分析处理情况,改进告警处理效率。

  • 浅谈告警管理能力成熟度模型

  • 当前IT行业出现的一个趋势就是:随着IT基础设施的云化,应用运行环境开始容器化,系统架构也逐步微服务化。面对这种现象,大多数企业为了提升IT系统管理的精细度,不得不引入更多的工具、更复杂的流程和更多的运维人员,但旧的问题解决了新的问题也随之而来。

  • 在当前复杂的it环境下,数据关系紧密无比,一个小指标的变化,都会引发一系列的告警连锁反应,犹如蝴蝶效应一般。不同监控平台的红色标识、不断涌入的告警邮件和短信,轰炸着运维人员的神经,也降低了运维故障恢复时间,故障处理成本不降反增,告警管理面临巨大挑战。

  • 告警风暴的背后

  • 如何抑制告警风暴?如何保障重要告警不漏不丢?如何快速的甄别根因告警?如何沉淀告警处置经验?如何快速恢复业务运行? 这些都是每一个运维团队在工作中面临的最棘手的问题。要想解决这些问题,我们就要知道告警风暴的背后,到底是什么导致了告警管理如此之高的复杂度?我们团队调研了多家企业总结了一些原因!

  • l 应用系统间关系更加紧密

  • 完成一笔业务往往需要跨越多个应用系统,应用调用链路上每个IT单元的问题,都有可能导致业务故障。系统中任何一个监控对象的告警都可能引发其他多个相关策略的告警,海量告警的相关度高达90%,也就是说90%的告警都是可以被归因到一个根源告警上。

  • l 告警策略设置难以找到平衡点

  • 过高的告警阈值,容易漏掉系统运行故障;而过低的告警阈值,又会带来大量的无效告警,影响运维团队的工作效率。同样,告警检查周期的长短设置也存在类似的问题。往往运维团队为了不漏掉告警,不得不提升告警的灵敏度,而这样告警重复率可能高达60%。

  • l 告警响应的及时性不高

  • 多个人参与同一类告警的处理是目前大部分运维团队的工作模式,少则2-3人,多到9-10人,同一个告警会被推送到多个运维人员的手中。但是,通常在一些特殊时段只有一个值班员负责处理告警,这就给其他团队成员生活带来了巨大的干扰。因为缺少高效的分派和排班管理机制,加上大量重复的无效信息,这将会在一定程度上造成告警处理的延时和遗漏,从而引发告警风暴。

  • 告警管理能力成熟度模型

  • 提升 IT 系统的运维管理效率,降低运维管理难度,最大的问题是需要像人脑一样分析复杂的业务,然后判断故障原因,过去的技术无法替代人力,而且现在AI技术已经非常成熟了,AIOps 成了解决这些问题的最佳方案。我们把ai和大数据结合,基于我们丰富的运维数据,通过机器学习,搭建了更加智能、全面的跨云监控和事件管理平台。我们目前有智能告警、智能监控和智能事件等多个产品。我们也推出了自己的睿象云智能运维平台。

  • 针对告警问题,我们推出了睿象云智能告警系统,绝对是运维人的福音了。运维人由于救火队长似的传统工作方式,每天起的最早,睡的最晚,熬夜是家常便饭,全天on call是常态,从业人苦不堪言!智能告警让运维人和传统的工作方式告别,告警智能降噪,多渠道通知必达,大大提高了效率,大幅度的解放了运维人!

  • 告警管理作为AIOps的重要组成部分,上接监控工具,下接ITIL流程和自动化平台,是整个运维监控体系中承上启下的中枢。告警管理能力的高低成为了掣肘IT运维SLA(Service-Level Agreement,服务等级协议)的关键。

  • 为了帮助企业更加量化的评估当下告警管理能力,明确告警管理平台建设目标和演进路线,我们将告警管理能力分为5个级别,整合出了“告警管理能力成熟度模型”,每个级别按照管理能力的不同程度,呈现递进的方式,高级别内容包含低级别内容。

  • Level 1,告警分散管理

  • 我们的运维团队为了尽可能全面的覆盖IT系统的各个环节,不得不引入多个监控工具,不同的监控工具会产生数以万计的告警,这些告警都需要去分析、优先级甄别、并执行预案操作。随着时间的推移,可能是数十万、百万的告警事件需要被关注。

  • 因为缺少了告警的集中管理和分派,不同对象的告警信息在运维人员间无序的传递,导致告警响应和处理效率低下。严格意义上来说,这个级别的成熟度还谈不上管理。

  • Level 2,告警统一管理

  • 越来越多的运维团队已经意识到了无序所带来的高额的管理成本和低下的故障处理效率。据统计,有超过20%的企业通过运维开发团队自建或利用第三方平台来进行告警的统一管理。

  • 将不同监控工具或系统产生的告警接入到统一管理平台之中,并能够基于一定的规则对告警进行去重,过滤和压缩。这个级别的管理能力成熟度打破了监控工具的边界,以业务或场景为视角,根据运维团队的职能分工,如按照业务或者IT架构分工,将告警分门别类,结合更加高效的协作工具,如钉钉、企业微信、Slack等,在一定程度上提升了故障处理的效率。

  • Level 3,告警智能管理

  • 业务在变,监控需求也在变,因为告警去重规则的死板而带来的问题不言而喻。通过大量的数据统计分析,只有不到40%的告警能够通过规则进行压缩。

  • 随着人工智能技术的不断发展,特别是NLP(Natural Language Processing,自然语言处理)技术的成熟,针对告警这类文本数据的分类、聚类、模式发现算法,成为了有效抑制告警风暴,提升告警有效性的主要手段。可以通过时间相关性、文本相似度、故障溯因图、 CMDB(Configuration Management Database,配置管理数据库)等手段,对海量数据中相似、相关的告警进行聚合。针对告警中的异常、新奇等重要信息,通过时间熵和内容熵进行标识,越是不频发、无规律、严重度高的告警越需要被重视,熵值越大信息越重要。告警智能管理将极大减少告警处理量,提升告警故障分析效率。

  • Level 4,根因告警定位

  • 根因定位一直是告警管理皇冠上的那颗明珠。由于告警的传递性和多面性,要在众多错综复杂的信息中迅速定位根因对所有运维团队来说都是巨大的挑战。

  • 关于根因定位的探索大致可以分为以下三个方向,一是基于动态获取的系统调用链路和承载关系,并结合时间相关性开展根因分析;二是基于CMDB构建一个实时反映系统环境的配置项和关系二元组群,通过告警在其中的投射关系进行根因定位;三是建立全面覆盖IT运维管理全域的实体、属性、关系三要素库,再运用知识图谱算法获得根因告警。当然不论是哪一种方案,都需要建立在对IT系统架构的深度学习和理解基础之上,才能真正做到明辨真伪,洞悉根因。

  • Level 5,告警自愈

  • 告警自愈是一套完备的故障自动化处理流程,通过打通监控工具、告警平台、任务调度平台、CMDB、ITIL等相关系统,实现从告警接收,根因定位,规则匹配,脚本执行,故障恢复,人工确认,最后到告警恢复,真正实现告警的全生命周期管理。

  • 除了Level 4中根因告警定位这个技术难点外,整个告警自愈过程还有另一个关键点,就是告警故障知识库的建立,这是日常运维工作经验的积累和沉淀,也是故障恢复方案的基础。但这也恰恰是我们很多企业的软肋,大量的故障处理经验都存在于运维人员各自的大脑中,日常中更多的依靠个人能力去排查和恢复故障。随着运维人员的流动,这些最为宝贵的资产也随之流失,这使得一个重复故障的处理也需要进行重新分析,不必要的拉长了故障恢复时间。

  • 告警自愈能帮助运维团队第一时间查明问题原因,实现故障的快速修复。同时还能帮助运维团队沉淀问题处置经验,防范潜在风险,最终形成系统运维的闭环管理。

  • 目前,越来越多的企业在告警管理领域展开探索,并且在告警风暴抑制上取得了一定的成效。睿象云智能告警系统也在帮助不同行业的运维团队解决告警集中和智能管理的问题。

  • 运维之路,艰苦漫长,告警的持续改进也不能一蹴而就,相信随着技术的发展和经验的积累,告警管理必将迎来跨越式发展的盛夏。我们也希望通过大家对告警管理能力成熟度模型的探讨和实践,引领我们共同步入无人值守这个运维终极目标,共勉。


上一篇:Capsule:开源的 JVM 应用部署工具(capsule用法)
下一篇:一款成熟的告警管理平台能带来什么?如何设计告警管理平台?
相关文章

 发表评论

暂时没有评论,来抢沙发吧~