告警管理很繁琐?《玩具战争》研发团队有话说

作者:admin 发布时间:2022-01-28 阅读:

游戏行业一直被看做“暴利”,“来钱快”的代名词,一旦成功做出爆款游戏,公司将迎来飞速发展。也因如此,游戏企业一直是各类技术服务提供商眼里的潜力客户,甚至是“兵家必争之地”。


战争游戏.png


真悦网络成立于2019年,定位于一家集精品游戏研发和全球化发行为一体的移动游戏公司。公司总部位于北京,并在全球主流地区拥有本地化游戏团队。目前,真悦网络已在全球多个国家和地区成功发行多款游戏。其前身雷尚科技(RayJoy)是一家成功的移动游戏和网页游戏开发商,曾开发了玩具战争、战争指挥官、战火online、怪物来了等知名游戏。         



流量暴涨,运维团队应接不暇 


2020年,眼看游戏流量不断上涨,告警越来越多,真悦网络的技术支持团队有些力不从心。

 

据了解,当时真悦网络面临的两个最大的难题分别是“夜间告警通知”和“告警自动排班分配”。真悦网络的技术支持团队不到10个人,游戏流量上涨的日子里,白天服务器产生的告警由空闲同事自动认领,并且在认领后以及处理完成时都需要以口头的方式告知整组同事,自动化水平较低。

 

晚上产生的告警由微信推送到技术支持团队,夜深后常常会出现告警无人响应的情况,严重时甚至造成服务器卡顿,影响游戏用户的体验。

 

于是,真悦网络技术支持团队开始寻求外部解决方案的技术支持。

 

起初,真悦网络测试了腾讯云的告警管理工具。“由于购买了腾讯云的服务器,当时我们先测试了腾讯的告警管理工具,但相应接口有很多限制,并且无法解决语音通道的可靠性问题,我们就放弃了,转而利用搜索引擎找其他产品。”真悦网络技术支持人员说道,“同样地,我们也测试过阿里云的工具,但阿里的通道不稳定,电话通知的频率有上限,一旦达到上限就会被限流,不利于业务开展”。

 

机缘巧合之下,真悦网络找到了睿象云,一番测试后,真悦网络技术团队发现睿象云的告警管理工具非常灵活易用,开箱即可支持多平台数据的快速集成,并且告警通知方式齐全。难能可贵的是,睿象云有多重备份的电话通道,借此,真悦网络的技术人员可以及时准确的收到所有电话告警通知。

 


自动化告警管理,轻松解决全天候运维难题 


睿象云成立于2020年7月,团队从告警管理(On-Call Management)切入,专注于为客户提供新一代云运维管理服务。

 

睿象云的CA(Cloud Alert)智能告警平台是国内首个SaaS告警管理平台,主要功能点有告警汇聚,有序分配&排班,通知必达,ChatOps&移动端处理,分析优化,告警降噪,告警聚类,根因定位和知识库。

 

通过告警汇聚,降噪,聚类,自动分派通知,知识整合,根因定位,知识复用等流程,CA(Cloud Alert)智能告警平台可为客户快速接入多个来源的监控工具告警,自动去重降噪,帮助运维人员从海量告警中识别重要告警,聚焦处理核心问题。


睿象云告警平台原理.png



其核心价值包括以下6点:

  1. 集中化:IT事件集中可视化。在一个平台集中所有相关监控工具告警事件。

  2. 告警降噪:自动压缩重复数据,识别重要告警,最高压缩比96%。

  3. 通知必达:建立告警事件响应机制,告警事件有序分发并配有多渠的道通知方式,保障事件细分到人,通知到人,有序跟踪。

  4. 数据导向:建立数据导向的运营支撑文化,树立以告警数量,告警响应时间MTTA,告警恢复时间MTTR,团队工作负载等指标为导向的支撑团队。

  5. 团队协作:加强人员协作沟通效率,建立虚拟团队沟通机制,协同处理。

  6. 移动化:移动端实时查看,处理告警。

 

两年多来,真悦网络使用睿象云的CA(智能告警平台)平台做日常运维的告警管理任务,基于CA平台的告警聚类和告警降噪功能,告警量从日均数百条减少到日均数十条,大大减少了人工处理告警的工作量。

 

同时借助自动分派通知功能进行告警任务排班,不再需要以口头的形式广而告之,大大提升了团队协作效率。“我们的策略是将告警先分派给值班同事,如果超过半小时没有处理,将会通知全员。相比之前更加灵活方便,也能直接通知到人。”真悦网络技术支持负责人说道,“我们之前每次告警来临都需要通知4个人,现在只通知一个人就行,节省了其他同事的时间,提高了告警处理效率”。

 

除此外,真悦网络借助CA(智能告警平台)平台的ChatOps&移动端处理功能,以电话、短信、邮件等多样化的方式通知告警,7x24h在线,解决了原先仅靠微信通知,夜间遗漏告警消息的问题。“多渠道全时段通知解除了我们夜间遗漏告警的后顾之忧,并且通道的稳定性很好,音频通话效果很棒,使用体验超出预期”。

 

除了现在每天使用的功能外,真悦网络还透露了进一步的合作意向。

 

未来,真悦网络希望构建一个端到端的监控报警方案。随着真悦网络业务量不断壮大,网络传输,数据格式统一,数据存储和数据查询优化等方面都开始暴露出问题;真悦网络表示,未来希望与睿象云一起,构建一个整体的解决方案,将来自不同云厂商,分布于全球各地的服务器,以及自建机房的数据汇总,通过统一的平台进行事件监控告警,进一步提升团队的生产效率。


TAG标签:精选案例事件管理AIOPS智能告警平台告警排班工具
立即开启智能告警管理之路
@版权所有 © 四川睿象科技有限公司 - 蜀ICP备19004207号