如何打造告警全生命周期管理平台系统? 告警全生命周期管理平台实践案例

知梧 557 2023-07-05

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

在现代数字化时代,企业面临着大量的数据和信息流。这些数据的管理和分析对于企业的成功至关重要。然而,随着数据规模的增长,企业也面临着许多挑战,其中之一就是有效处理和管理来自各种来源的告警信息。

一、告警管理建设的现状和挑战

1. 企业的监控体系建设现状

企业监控体系建设的一般分为四个阶段:监控工具建设、统一监控建设、智能分析建设和主动防御建设。

根据我们的调研情况,大部分企业的现状都是在第一阶段到第二阶段之间,企业内已经建设有很多监控工具,都在思考如何管理这些监控工具。

2. 企业告警建设所面临的挑战

告警建设面临诸多挑战,主要有以下五个方面:

● 通过人工设置固定阈值,各系统设置标准不一,存在大量重复告警、误告警。

● 缺乏全局视图直观了解应用系统告警整体情况和关联影响范围。

● 告警散落在各个监控系统中,导致查找告警原因,定位问题困难。

● 告警处理人工干预过多,系统联动少,告警流转慢。

告警过程无法追踪,告警处理经验沉淀难,告警处理效率低。

为了解决这些问题,我们需要建设一个完善的告警管理系统。在介绍如何建设系统之前,我们先来介绍什么是告警管理体系,这样才能更有针对性的去做告警管理建设。

为了解决这个问题,睿象云作为一种告警全生命周期管理平台应运而生。下面介绍一个案例。

据权威数据显示,目前国内汽车后服务市场的规模已达万亿级别。而在车主日常用车的多种生活场景中,与车辆违章相关的细分业务使用频度仅次于导航、停车、洗车等三项车后服务,这也是极具发展潜力的一个细分市场。「车行天下,快易人生」的车行易,已经成为众多服务厂商中的佼佼者。

创立于 2011 年,全国最大的违章数据处理平台的车行易违章大数据平台(以下简称:车行易),已经在线服务覆盖全国 330 多个城市,在全球拥有超过超一亿车主用户。车行易以庞大的车务数据平台为基础,集违章代办办理、行车周边、车务处理、一键挪车、实时提醒、在线加油六大服务为一体,整合线上线下车务资源打造的车务 O2O 交易服务平台。车行易始终把为有车一族全面提供安全、便捷的出行体验作为企业使命,承诺以最少的花费、最短的时间、最便捷的产品、最高的效率,为车主朋友们提供最让人满意的服务。

夯实用户体验 IT 系统先行

依托海量数据资源和具备自主知识产权的人工智能算法,车行易的智能车务已经占据国内车务处理商用市场份额 70% 以上。车主通常最在意汽车服务的效率,在过去八年,通过车行易提供的服务累计为车主节省的时间总和已经超过百亿分钟。但是,随着云计算、大数据行业发展,客户对车易行 IT 基础服务的要求越来越高。但是由于国内 IT 架构异常复杂,无论是网络还是软件服务都存在很多潜在的不稳定因素,所以能够及时发现问题,并快速反馈给 IT 人员解决,已经成为很多企业的核心诉求。

随着车行易数字平台的不断发展和数据产品的创新,整个业务运营面临了很大的挑战。在以往,车行易的运维人员主要是自己写代码、发邮件、发短信,或者使用钉钉接口来进行事故的报警与处理,不仅仅效率低下,而且缺乏对应的流程制度管理,相关人员有无认领任务无法进行确认,还容易出现各种推卸责任的现象。此外,在业务高速发展过程中,维护一个稳定、高效的运营平台相对比较困难,所以对车行易的运维团队来说,在出现问题时能够做出响应,发挥出更多的主动性更显为重要。在 2018 年初,经过对市面相关产品的综合对比后,车行易与睿象云达成合作,部署了一站式智能告警管理平台 Cloud Alert (以下简称:CA),通过 CA 来构建基于事件驱动的流程管理制度,帮助其快速实现告警的全生命周期管理。

多端数据全面连接 执行精细化运维管理

作为目前国内领先的 SaaS 云告警平台,CA 能够实现简单快捷接入,无需复杂配置,或者开发介入,就能够帮助车行易节省人力资源,快速实现跨平台的告警管理。同时,也帮助车行易在管理事件响应方面提高了灵活性,也全方位确保了运维团队能够在出现事件时及时受到报警,并立即着手解决事件,为用户体验「保驾护航」。1. 跨平台告警汇集CA 已经实现了近 20 种常见的监控工具的对接,对于车行易日常使用的 Zabbix、Prometheus、Grafana 和阿里云等监控工具可以完美的对接,将告警全部在一个平台处理,更加全面,也更便于进行管理。同时配合 CA 的初级数据解析和去重功能,即可根据不同的事件源自动进行数据解析和格式化,并对重复事件进行合并,快速实现原始事件和告警的第一级降噪。

2. 多渠道通知必达,规范业务运营过程中的问责制CA 提供多种灵活的通知方式,包括电话、短信、微信、邮件、APP 等五种告警通知方式。并且多通道的告警通知,能控制告警延迟在秒级,保障告警的及时率和到达率,这样车行易的运维人员,即使不在办公司,也能实时了解到平台的运行情况。同时,可通过车行易企业内常用的钉钉,实现跨团队的问题讨论,实现以灵活多样地通知协作方式,满足不同场景的运维管理需求。

CA 提供的告警分析的功能,能够根据应用、团队、成员三个维度进行告警内容的分析,清晰的了解到团队处理告警的平均响应时间,告警数量等指标,清晰认识车易行运维团队整体的工作情况。并且通过 CA 平台的个性化通知和分派,明确区分每个成员的职责。不同时间、不同级别、不同主机组、不同内容的告警个性分派,帮助车行易运维团队提升了运维效率和精神状态。

目前,根据车行易的业务需要,分派策略基于告警接收对象划分为主,涉及到公司多个部门,包括商务、运营、开发、运维等等。比如对于商务人员而言,他们接收到的通知包括客户到期、余额不足等;对于运营人员来说,订单量异常、第三方服务异常等是他们所关心的,而对开发中心的同学而言,他们希望能够及时了解 Log 中的异常消息等。

而作为运维人员,他们时刻需要关注服务器、数据库、服务模块、Nginx 等告警信息。而通过 CA 平台,他们就可以根据微信、钉钉、邮件、短信来进行紧急事件的处理。在工作流程方面,车行易的运维团队规定,接收告警方需要及时认领,并进行考核,全面保障了 IT 服务的稳定性和高可用性,同时也赢得用户的口碑和好评。

车行易的运维团队负责人表示:

我们通过 Cloud Alert 这款 SaaS 告警管理产品,将很多数据的整理工作放在线上就可以完成,同时让我们评估团队的工作有据可依,让各种业务运维工作有了 KPI 考核。对车行易运维团队而言,Cloud Alert 不仅仅是通知平台,也是一个分析、管理平台。更为重要的是,使用 Cloud Alert 后,我们可以随时随地了解系统告警情况,再也无需担心老板的罚款啦。

告警全生命周期管理平台睿象云是一个强大的工具,可以帮助企业实现高效的告警管理和响应。通过集中管理和处理告警信息,企业能够及时识别和解决问题,提高运营效率和可靠性。

上一篇:多渠道告警通知的有效方式,如何做到告警通知的有效管理?
下一篇:告警指标异常检测算法,如何解决监控告警异常的问题
相关文章

 发表评论

暂时没有评论,来抢沙发吧~