PagerDuty VS 睿象云,国内外领先的事件管理平台对比

作者:admin 发布时间:2022-04-02 阅读:

3a7eea71d6dc01368011cb418d2a8476.jpeg


告警管理是近年来 AIOps 的热门领域。从国外的 PagerDuty、BigPanda,到国内的睿象云等知名厂商,正因为这一领域的火热逐渐为人熟知。告警管理正由运维团队的一项日常任务进化为前沿科技公司业务运营的重要环节,扮演“企业数字化神经中枢”的重要角色。


用告警管理领域全球领跑玩家 PagerDuty 的话来说,“电子商务的发展使得线上顾客只需要几秒钟便可逛(切换)多家店铺,也只需要几秒钟就能完成购买,于是顾客对线上店的体验水涨船高”。7*24h 稳定高可用的基础设施已经成为线上业务的必需品,立刻发现问题并快速解决掉,也成为线上业务的标配。于是,处理基础设施突发状况的速度乃至提前预防的能力成为线上业务的核心竞争力之一。


“企业数字化中枢”解决的就是这样的需求--通过提取数以亿计的数字信号并消除噪音,然后调动适当的团队解决甚至预防突发情况。


国外有PD(Pagerduty),国内有CA(Cloud Alert)。睿象云看到了这一市场需求后快速行动,打造了智能告警平台 Cloud Alert,领跑事件监控领域。


今天我们聚焦于 PagerDuty 与 睿象云智能告警管理平台 Cloud Alert ,聊聊二者在产品层面的异同,让更多用户深入、全面地了解自主国产智能告警平台,并尝试回答以下问题:一个成熟的的事件管理平台长什么样?



01

告警管理全流程一览

告警管理由来已久。从告警处理的角度来看,一个完整的告警管理流程一般包括以下五个步骤:


  1. 接入集成。简单来说可分为传统监控工具和云监控两种接入来源。前者包括Zabbix、Prometheus、Nagios等热门监控工具,后者包括如AWS、阿里云、华为云等。


  2. 数据标准化及数据丰富。监控工具接入的目的就是将数据汇总做进一步处理。一般需要先将不同来源的监控工具标准化,然后再按照用户需求适当做数据丰富。


  3. 智能降噪/压缩(事件引擎)。压缩降噪是告警管理平台的核心功能点,不同告警管理平台的压缩降噪算法,执行方式以及展现方式、处理效率各有不同,这都直接影响产品体验。


  4. 告警分派。告警分派的核心是分派策略的灵活度和分派的准确性,为用户解决以往需要人力计划分派时间,分派对象的烦恼。


  5. 从分派到通知。告警通知为用户提供多渠道,全方位的通知方式,相比传统监控工具以邮件为主的通知方式,告警管理平台一般提供包括邮件、电话、短信、社交工具、自主App等通知方式,并结合常用办公软件,如钉钉、企业微信、Slack、Skype等,为协同办公提供便利。


在运维人员处理告警事件前,告警通知是最后一步。通知完成后可能涉及通知未响应自动升级,历史解决方案推荐等,可看作辅助功能。本篇文章的核心在于基于告警管理全流程对比国内外告警管理领域两家典型公司的产品,为读者提供更为全面的视角,以选择更适合自己的告警管理平台。




02

PagerD
uty VS 睿象云 Cloud Alert


PagerDuty 是全球告警管理领域的先锋,在2019年于纳斯达克上市,目前市值约 31 亿美元。欲了解更多 PagerDuty 的故事,可翻阅睿象云公众号历史文章-- 关于 PagerDuty 的行业观察三部曲行业观察|那个卖洗发水的职业经理人,把科技公司带上市了!行业观察|PLG 领导者 PagerDuty 如何将市场蛋糕做翻倍?行业观察|PLG 标杆公司,如何依靠产品描绘二次增长曲线


睿象云成立于2019年,是国内第一批告警管理 SaaS 公司。目前已服务包括互联网、运营商、政府、军工等领域上千家企业,累计处理告警超3亿条,每周处理告警量超过200万条。典型客户包括睿象云案例|智能一体化告警管理持续赋能旷视科技云端业务发展实践案例|慧科迅业携手睿象云:本地化服务更胜一筹


接下来我们就详细聊聊 PagerDuty 和 睿象云的告警管理产品。


1

 以量取胜:PagerDuty 监控/应用接入更胜一筹


监控集成的数量是一个告警管理产品兼容性的体现,通常来说可分为云监控和传统监控两大类。对于用户而言,监控集成数量决定了可汇总的数据来源的广度,监控集成越多越易于使用。


截止2021年底,PagerDuty 支持的监控工具数量达到 560+ 个,包括热门应用Zabbix、Prometheus、Nagios(用于服务器监控)、 Pingdom(用于网站监控) 和 New Relic(用于检测应用程序)等。


相比之下,睿象云智能告警管理平台支持的监控工具数量达到 100+ 个,包含主流的Zabbix、Prometheus、Grafana、阿里云、腾讯云、华为云等。数量与广度方面 PagerDuty 更胜一筹,而对于国内云厂商的适配上,睿象云有一定优势。


我们从国内运维人员的角度试用了 PagerDuty 与睿象云,通过最基本的接入流程将二者做了对比,测评结果如下:


PagerDuty 全英文的接入文档、长久未更新的配置文件、难以联系的客服团队。使得仅仅在接入监控工具这一步,不断的百度+分析问题产生的原因浪费了大量的时间。

1.png


相比之下,睿象云有简单直接的中文接入文档,随时在线可沟通的支持团队,专人一对一解决集成中遇到的问题。


PagerDuty VS 睿象云,国内外领先的事件管理平台对比(图3)


因此,对于国内运维人员,我们认为睿象云在监控集成的易用性上更有优势。


2

 自定义为王:数据标准化及数据丰富


数据进入到平台后需要将其结构化,便于后续处理。但用户对结构化的需求不一而足,在平台统一结构化之前和之后,会有自身的个性化需求。比如结构化之前定义哪些数据需要结构化,哪些数据不需要进行结构化;结构化之后数据保留多少等等。


PagerDuty可以通过规则集匹配来判断用户需要对哪些事件做自定义数据丰富,并且支持自定义免除特定来源的数据结构化。


睿象云目前采用的是系统内置的标准化格式,尚未支持自定义。同时,对标自定义数据丰富功能的是自定义标签功能,用户可通过自定义数据来源的分组标签,自行将数据二次分类。


因此我们认为,在数据标准化和数据丰富方面,PagerDuty和睿象云智能告警管理平台有不同的设计思路,但目前均可满足用户自行分类数据的需求。


3

 有千秋:智能压缩降噪(事件引擎)


监控/应用集成的数量体现了告警管理平台的广度,智能压缩降噪效率体现的是告警管理平台的深度。对用户来说,压缩降噪消除了重要告警的噪音,极大提升了告警事件的处理效率。


我们经过测评后发现,PagerDuty 的智能降噪算法对于每一个用户而言都是不同的。其算法是实时机器算法,可根据用户行为进行学习。在遇上新事件时,PagerDuty 的算法引擎可以自动追溯历史相关事件,然后让用户判断追溯结果是否有效,以人机交互的方式提升智能化程度。


另外,PagerDuty 支持预览前三个月数据降噪的结果,让用户得以更直观地感受到其智能压缩降噪的效率。


睿象云智能告警管理平台同样支持智能压缩降噪,同时已经推出了通过正则表达式匹配需要压缩降噪的数据源,可以让用户自定义压缩降噪范围,满足精准压缩降噪需求。考虑到该功能的适用场景,目前仅对专业版用户开放。也因此,暂未开放压缩降噪结果预览功能。


因此,我们认为在智能压缩降噪部分,总体来说 PagerDuty 更为先进,智能化更优。睿象云则更适用于对场景理解深刻的中高级用户。换言之,中高级用户对正则表达式的需求会大于实时机器算法。这意味着不同用户群的需求对应不同产品,PagerDuty 和睿象云可谓各有千秋。


4

 因地制宜:告警分派的两种设计思路


告警分派是为了解决多人排班的需求,以此将用户从传统的“口头排班”中解放出来,尤其在团队人数多,一次性排班数周的情况下大有裨益。属于自动化流程的范畴。


Pagerduty 的告警分派与升级策略相互独立,秉承一个服务只能指向一个升级策略。因此,PagerDuty 的告警发生后不支持高自由度的分派。对应的,为确保告警能被及时处理,其开发了复杂的升级机制,可选的包括自动升级,按需升级,循环升级等等。


睿象云的升级策略是嵌套在分派策略中的,因此,仅保留了升级策略中最核心的功能--随着时间的流逝通知到对应人。这样变相突出了分派和通知这类必备功能的重要性,同时也符合最初的期望--让新用户在初次上手时免于被繁多的功能细节淹没,能够快速完成一个基础Demo。


综上,在告警分派方面,睿象云以牺牲产品功能丰富度为代价,保证了产品的易用性。这也符合国内还有待培育的现代化运维生产环境。相比之下,PagerDuty 则更符合运维团队结构复杂,层级较多的企业。


5

 本土化为先:从分派到通知,产品体验大比拼


通知功能直接反映出一个产品的本土化服务能力。一般来说,用户对通知渠道的需求首先是本土化,需要能覆盖所服务地区最主流的通知渠道;然后才是通知渠道的丰富程度,以及独立App 的专属通知能力。这直接影响到用户的产品体验。

Pagerduty 的通知策略不支持国内常用的协作工具,微信/飞书/钉钉等。但在通知内容的展示上更胜一筹,比如富文本邮件,最大程度保留原有告警内容,支持换行展示等。


睿象云的通知渠道支持短信、电话、邮件、微信,自研应用程序,本土化能力更强。同时,出于对团队协作便利性的考虑,睿象云集成了国内常用的聊天工具如微信/飞书/钉钉等,国外AWS Chime 等,更便于运维人员甚至全公司相关团队协作。


因此,我们认为在告警分派到通知环节,PagerDuty 功能点更突出,而睿象云优秀的本土化能力使得产品体验更胜一筹!



03

总结:市场环境决定产品价值,满足客户需求者胜出


上述核心流程功能是一个智能事件管理平台的必备项。除此外,根因定位与知识库推荐,Runbook 流程自动化(自动执行,自动修复脚本),自定义告警通知模版等高级功能也有不少可比性,将在后续文章中展开。


综上,不难看出 PagerDuty 在监控接入、流程自动化方面优势突出,而睿象云在本土化能力与易用性方面更胜一筹。但归根结底,产品与市场的契合度是产品发挥价值的前提,因此,在国内的市场环境下,睿象云能否在研发迭代高级功能的同时,继续保持本土化能力与产品易用性的优势,将是其制胜中国市场的关键。










即刻上手睿象云产品


睿象云智能告警管理平台推出了 SaaS 免费版,每月免费赠送500条告警通知!点击链接注册体验睿象云最新版智能告警管理平台:

https://newuser.aiops.com/#/register?from=freerxyaioqitmfb






TAG标签:事件管理智能告警平台aiops 自动化运维
立即开启智能告警管理之路
@版权所有 © 四川睿象科技有限公司 - 蜀ICP备19004207号