睿象云案例|智能一体化告警管理持续赋能旷视科技云端业务发展

作者:小编 发布时间:2020-11-06 阅读:

旷视科技是一家行业领先的人工智能公司,在深度学习方面拥有核心竞争力。而作为旷视科技的主流业务“基于云端的人脸识别解决方案”更是积累了大量数据,而越来越多的实时在线图像比对给整体的 IT 系统的稳定运行带来了巨大挑战,构建安全、稳定、有序、高效的IT运维管理模式,成为推动业务系统稳定运行,增强自身竞争能力的关键一环。

 

打造数据新基建实现一体化、体系化、可视化

为保障业务的稳定运行,旷视科技采用了 Zabbix、 Prometheus、grafana与众多基础资源监控系统来监控系统运行。系统之间彼此相连,任何一部分效率降低或者故障,都将降低IT服务的可用性,轻则造成信息访问延迟,重则带来各种不可预估的业务中断。 而一体化集中监控”是实现系统高可用行的基础。

 

为此,旷视科技选择部署睿象云的智能告警平台 Cloud Alert (以下简称:CA),对系统中的所有监控工具进行统一的集成管理的同时,可直接对各类告警信息进行统一的管理并通过CA平台的智能算法实现告警降噪。同时通过分派、排班、通知等功能,快速实现跨平台告警的一体化流程化管理,提升告警管理能力。

image.png

旷视科技通过睿象云基于IT 运维行业的海量告警数据,自研的开箱即用的算法,实现更加精准的文本聚合能力。在告警生成的过程中实时抑制告警风暴,极大的降低告警通知的数量;在告警的事后回溯中,根据告警内容自动进行分类、聚类,帮助运维人员大幅降低告警分析的数据量,从而缩短故障恢复时间。

 

管理方通过 CA 平台提供的多维度报表,随时掌握系统运行状态、告警状况分析和成员工作效率,概览系统运行状况。数据报表的可视化展现,也方便了日常数据汇报、跨部门沟通等工作。

 

多渠道通知必达,做到“业务有数,心中有路”

告警是IT运维中不可或缺的环节,徒有强大的监控机制而告警通知机制跟不上,不能在紧急情况下把告警信息及时传递给运维人员,那么IT监控形同虚设。所以睿象云 CA 平台的自动化告警通知机制,真正的帮助旷视科技的运维小伙伴们实现通知必达,提高了系统运行保障能力。

 

通过CA 平台可以按照不同类别的告警进行自定义的分派策略,保证了业务问题能够实时地发送给相关的团队和负责人。并可通过排班功能规则可以满足团队成员在全时段处理告警的分工需求,即使由于值班人员的疏忽没有接到告警通知,也可以自动升级给团队中的其他人员。真正做到了每一条告警都不遗漏,并完美地体现了旷视科技更人性化的工作氛围。

 

为了更好地满足团队成员个性化需求、规范告警处理流程,旷视科技将不同的告警级别设置成了不同的通知方式。例如,重要级别的告警或者在非工作时间的告警通知都采用电话的通知方式。一般级别的告警通过钉钉来通知,而需要团队协调处理的告警也可以通过钉钉直接@相关的负责人,极大的降低了团队成员间的沟通成本。

 

智能的自动化告警管理体系让旷视科技的运维团队做到了“业务有数,心中有路”,每一位同事都在心里有了指北针,轻松应对每一条系统告警,实现工作效率和系统稳定的双重提升。

 

未来可期,需求与工具同步迭代

“我们仍有许多业务需求期待与睿象云进行深度的合作,将我们的业务系统维护的更加完善,稍后我们将与睿象云团队一起探讨业务质量分析等运维问题,以便提升更加流畅、更加全面、更便捷的金融级人脸身份核验业务的在线化高效施行。”旷视科技运维负责人表示。

 

随着企业需求的不断更迭,睿象云开足马力深度服务客户的业务需求,帮助业务运维团队更加快速的掌握业务健康状况,甄别运维问题,判定故障根因,预测业务变化趋势,最终全面提升企业的IT运维能力,降低经营成本和风险,创造更加优质的用户体验。

TAG标签:
立即开启智能告警管理之路
@版权所有 © 四川睿象科技有限公司 - 蜀ICP备19004207号