监控告警平台建设,一款成熟的告警管理平台能带来什么?

北野 977 2022-10-27

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本文关于监控告警平台建设,一款成熟的告警管理平台能带来什么?

从0到1负责过整个互联网公司监控告警系统(Zabbix&Prometheus)构建,聊聊监控告警平台建设中几个核心指标。告警问题主要包含运行中的程序由于外部变化引起(比如接口被刷、索引走偏、服务器宕机)+变更引起(业务配置变更+发版变更+运维维护等)。问题处理时长主要包含如下三个阶段:响应时长+定位时长+ 变更执行时间。问题处理时长与监控告警平台以及自动化工具应急平台息息相关。自动化工具应急模块需求来源于平常故障。下篇聊聊自动化工具”

 01如何预防或者快速定位问题

1、如何完善监控指标

监控指标完整性    

遵守监控指标最小有效原则,但如何才能做到最小有效原则?需要各个领域的专家来协同敲定监控指标。

i)、业务监控敲定干系人:业务架构师、市场运营、监控负责人

市场运营对业务监控是非常敏感的,比如举办一次活动,奖品有没有被刷?投入收益比?哪个手机类型的最用户最喜欢/最不感冒?最不感冒手机类型是否因为不兼容?新增用户主要分布在哪些时间段?用户响应时间?等等。

整体来说,市场运营人员关注投入收益比,用户访问体验等指标(意识到位的业务架构师很难遇见,对接也会遇到阻拦,有时候需要监控对接人具备深入业务,挖掘监控指标的能力)

ii)、数据库监控敲定干系人:dba、监控负责人

数据库属于专业性比较强的技术,需要资深级别DBA去敲定监控告警指标

复盘主要目的梳理监控指标,怎样预防或者快速定位问题等等。

2、监控面板  

如何通过监控大屏幕快速定位问题?

所有定位时长的问题,都因为缺少监控指标,监控承载着全村人的希望。 监控面板包含:

全局大屏幕  能快速定位公司所有异常告警未恢复的告警

按小组维度监控面板:比如数据库/运维面板/大数据

技术栈组建面板:比如MySQL/Redis/Oracle/Nginx/Kafka

用户可自由组合配置面板 ,比如给开发/测试赋能

3、变更统一管控

业务配置变更、发版变更、运维维护等变更需要统一推送到统一管理平台,用于问题定位

完善的自动化工具,将所有变更的开始时间,结束时间都能通过平台自动发送

4、监控覆盖率

监控服务覆盖率(取决于cmdb完整度,cmdb是否收口)

监控指标覆盖率

5、监控数据准确性与实时性

保证监控数据准确性,上线前需反复测试确认

6、监控快照

监控快照很有必要性,有时候缺少监控快照,问题排查无从下手

02如何缩短响应时长

1、准确的告警接收干系人,自动电话告警干系人

数据库CPU/活跃会话数等指标告警(即SQL或者数据量异常写入的告警)

干系人:cmdb 关联的dba、开发

数据库宕机(自动告警存在风险,需要考虑网络抖动等情况,谨慎)

干系人:cmdb 关联的dba、运维、开发

磁盘空间告警

干系人:cmdba关联的dba

2、告警确认流程

告警接收人确认已接收到告警,如果在家怎么确认?需要建设移动端

监控告警平台。 如果接收人一定时间未接收到告警?升级备岗。如果备岗未收到告警,升级到接收人领导。层层告警升级。

已收到告警确认告警已接收,以防平台层层升级。

3、接收人能确认影响等级

比如一级故障,接收人可一键升级到干系人Leader,获得更多的资源

4、根据不同告警级别 ,设定告警处理时长,升级机制

比如灾难级别告警,30分钟未处理,升级到干系人Leader。

一款成熟的告警平台能带来什么?

信息大爆炸时代,浩如烟海的事件信息和不断变化的IT拓扑关系,日益成为IT运维团队的一场噩梦,那一款成熟的事件管理平台所能带来哪些效益呢?

睿象云智能告警平台Cloud Alert(简称CA)快速接入各类事件,通过人工智能算法自动发现、诊断、修复IT系统运行事故,并能帮助企业形成最佳事件管理流程,让业务运行更加安全可靠;接下来就来详细的说下吧~

● 支持多平台应用集中管理

用户可以将多个监控平台接入到CA当中进行统一管理,目前支持的平台有Zabbix、Prometheus、Nagios、Open-Falcon、AWS、阿里云、Cacti、Solarwinds、睿象云、监控宝、Grafana 、Vmware、Site24x7、如果上述都没有支持你的监控系统,那还可以用通用集成Rest API和邮箱集成。

● 告警的自定义分派

用户可以根据不同的应用,选择多种分派条件,使得告警通知的到指定的人,达到告警的多样化分派,并且用户也可以设置延迟分派策略,使得告警二次或多次通知,避免遗漏重要告警通知。

● 多样化的通知方式

用户可以根据告警不同的状态、不同的时间、不同的级别,以不同的方式,通知到指定的人,目前支持的通知方式有电话、短信、微信、邮件、APP。用户也可也选择是否延迟通知。

● 排班策略

系统支持根据用户需求设置排班,满足满足企业内部循环排班需求,使得告警只会通知到值班人员;并且支持临时修改排班人员。

● 告警的压缩与降噪(事中)

用户可设置自定义压缩条件或者是算法智能降噪,可以有效的避免告警风暴,减少人员的处理工作量,也能快速有效的查找到问题的根因。

● 告警降噪(事后)

用户可以通过高聚合智能算法降噪或者是仿阅读智能算法降噪,从而达到事后告警的分析效果,使得用户可以发现告警的主要根因问题。

● 告警分析

CA提供多维度报表帮助您快速分析告警、成员工作效率,概览系统运行状况。支持自定义时间段,回溯分析历史系统状况。

● 新奇事件

为了进一步帮助用户识别和定位可能的重要告警问题,CA 引入了新奇事件。环比上周期,本周期内新发生的事件,即为新奇事件。

上述就是小编为大家整理的监控告警平台建设,一款成熟的告警管理平台能带来什么?

国内(北京、上海、广州、深圳、成都、重庆、杭州、西安、武汉、苏州、郑州、南京、天津、长沙、东莞、宁波、佛山、合肥、青岛)睿象云智能运维平台分析、比较及推荐

上一篇:10 分钟让你明白 MySQL 是如何利用索引的
下一篇:运行自动化测试
相关文章

 发表评论

暂时没有评论,来抢沙发吧~