CA帮德国电信解决运维监控最后1公里问题

导语:面对成千的服务器告警消息,一个平台的管理尤为重要。CA 智能告警平台将多种监控的告警信息集中处理,对告警消息有效区分,合理的告警处理流程以及事后可靠的告警分析,让团队的工作效率提升明显。

面临的问题

T-Systems 虽然构建有标准的运维服务支持管理体系,有 24 小时的 Servicedesk 团队,负责通知工程师项目运行重要事件,但是,随着项目建设,IT 基础设施不断扩容, 不同监控系统中产生的事件逐渐增多,对告警系统提出了更严格的要求,当前的告警工具和流程已经无法满足业务需求,导致错过了解决问题最佳时机,对项目运维造成了很大困扰。

智能告警平台 CA 这样做

统一事件接入接口:CA 能够接入十几种常见的监控工具,同时也支持通过 API 调用方式接入告警,将告警全部在一个平台处理,帮助德电中国实现跨团队统一管理全量告警。

告警通知必达:CA 提供多种灵活的通知方式,包括电话、短信、微信、邮件、APP 等五种告警通知方式。并且多通道的告警通知,能控制告警延迟在秒级,保障告警的及时率和到达率,这样德电中国的运维人员,即使不在办公司,也能实时了解到平台的运行情况,同时也能对系统问题实时进行处理。

灵活分派告警:CA 支持定制分派策略,通过⾃定义按照应⽤(集成⼀个监控⼯具算⼀个应⽤)、告警优先级、告警内容,主机组等可以精准选择分派的⼈/⽤户组/排班,一个团队成员想收到的仅限于需要处理的告警。不同时间、不同级别、不同主机组、不同内容的告警个性分派,帮助德电中国运维团队提升运维效率。此外,CA 提供的排班功能,支持按照周、天、小时排班,覆盖排班轮休周期需求,同时 CA 支持自定义工作时间,通过有序安排,降低企业/团队人力成本,提升德电中国运维工作效率。

帮助规范运维告警管理:CA 提供告警分析的功能,能够根据应用、团队、成员三个维度进行告警内容的分析,清晰的了解到团队处理告警的平均响应时间,告警数量等指标,清晰认识运维团队整体的工作情况。并且 CA 的个性化通知和分派,明确区分每个成员的职责。做到了任务透明化、精准化,提⾼了团队协作效率。

客户反馈

德电中国北京运维团队负责人刘鑫谈到,我们用 CA 来解决监控最后一公里的问题。对接 Zabbix,PRTG , 阿里云监控。电话微信推送告警,及时通知运维人员,快速反应,保证客户服务的高可用。

上海运维团队负责人马超说,「以前通过 24 小时的 ServiceDesk 团队通知工程师,还是有部分漏报,人总归是会出错的,部署 CA 后,漏报基本不存在了,通过排班,任务分派可以保证每个告警都能通知到合适的人,领导也可以直观的看到整体的一个状态,支持的外部接口也挺丰富的,我们的各种监控工具都可以接入」