行业观察|PLG 标杆公司,如何依靠产品描绘二次增长曲线

作者:admin 发布时间:2022-01-28 阅读:

PD官网截图.png


开发团队和运维团队生活在两个不同的世界,而彼此又坚守着各自的利益,所以在这两者之间工作到处都是冲突。


14年前的一个普通工作日,一位独立 IT咨询师做完单元测试沮丧地转身离开工作岗位,心里无数遍琢磨问题到底出在了哪里?


这位 IT咨询师名叫Patrick Debois,当时为比利时政府下属的大型数据中心迁移项目做测试和验证工作。为此,Patrick 需要同时与开发和运维团队沟通配合,头一天是敏捷的开发节奏,第二天又要以传统的方式维护这些系统不断切换工作节奏让他很苦恼。


冥思苦想之后,他开始了一系列探索和准备。两年后,第二届Velocity 大会的 DevOps 演讲轰动全球。Patrick 看到时机已经成熟,于是通过Twitter 向全球工程师发出邀请,召开了DevOpsDays。这届会议非常成功,DevOps 也由此诞生。


但是,理想很丰满,现实很骨感。机房托管的时代,很多现代化IT技术还处于萌芽中,大家虽然意识到这个问题,但并没有完善丰富的技术支撑理念实现。


直到以Docker为代表的众多技术和工具快速成熟,以及云计算时代到来。



01

云计算时代来临,运维环境产生变化


随着云计算在各行各业不断渗透,传统的开发和运维环境受到了强烈的冲击。机房托管时代,技术团队基于实体机完成部署和生产运维,其中涉及到繁杂的服务器配置、管理,以及各种手动调优;云计算时代,随着虚拟化,自动化创建工具成熟,同时服务器周边管理越来越便捷,一个普通的运维人员输入几行命令即可得到虚拟机,甚至以同样便捷的方式即可创建所需环境。


这样的背景下,运维人员也有机会参与到敏捷的流程中。通过利用工具将原先繁杂的配置和管理工作封装成代码,以自动化的方式落地;提供给整个技术团队使用。在此基础上,运维人员有更多时间和精力考虑可用性和安全。


运维环境在这样的反复迭代下,变得越来越敏捷,越来越高效。以技术形态和技术基础设施两方面为例,我们看到技术形态从原先单一、静态、内部部署的模式发展到今天容器化、动态并且普遍基于云环境的模式;技术基础设施则从PC和Web为主扩展到手机、汽车、应用程序、物联网设备、工业系统和社交媒体源等所有支持软件的系统和设备。而这些基础设施每天都在产生数以亿计的数字信号。


正如电商和社交网络强调的用户画像那样,基于上述设备产生的数字信号也同样可以洞察与客户体验和业务运营息息相关的事件。


时代造就伟大的公司。2009年,三个 Amazon.com 的技术人员发现了这一机会,并创办了一家公司。在2019年的招股书中,这家披露了自己的定位“企业数字化神经中枢”,并写到“我们要解决的是数字化运营的难题,这需要一家公司的软件开发、IT、客户支持、网络安全以及业务运营部门共同专注于从数十亿“噪音”中提取重要的信号,用于实时协调组织的行动”。


时至今日,这家公司已是告警管理领域当之无愧的领导者,并向着更广阔的自动化领域发起了进攻。同行称其为“时代先锋”-- 它就是 PagerDuty。




02

时代先锋出现:从 On-Call Management 切入,产品几经迭代成熟


2009年,PagerDuty在加拿大成立。成立初期,PagerDuty 定位于 Incident Management (故障管理)市场,从 On-Call Management(任务分派管理)切入,解决最普遍的实时故障响应需求。


时至今日,Pagerduty 已经是SaaS领域备受推崇的 PLG(Product Lead Growth)公司。其核心产品通过利用数据,理解数据,响应和协调团队,分析和学习一系列流程提升客户体验。产品流程对应的功能原理如下:


1)连接:PagerDuty 构建了很多客户自助服务的工具,包括开发人员指南、交互式应用程序编程接口或 API、文档和社区论坛。借助这些工具,客户可以通过电子邮件/API连接到他们自己的应用程序,基础设施和工作流,完成数据传输。


2)识别:PagerDuty 收到/集成数据后需要自动转换数据格式,并查找数据模式和相关性。最终产出故障和上下文。


3)协调:在响应和协调团队环节,PagerDuty根据故障特征匹配个人/团队,为其提供丰富的上下文信息。


4)建模:最终在分析和学习环节,PagerDuty 会进行深入的事后分析,构建故障处理模型,为下一次相似的故障处理做准备。


而在2019年上市之前,和所有PLG公司一样,Pagerduty经历了漫长的产品研发和打磨过程。十年的产品发展史大致可分为三个阶段,分别是2009~2016年单一产品发展期,2016~2017年平台转型期,以及2017年以后多产品矩阵期。


PD产品发展历程图.png



1

 专注 On-Call Management 市场,单一产品备受好评


单一产品发展期间,PagerDuty专注于On-Call Management市场。核心能力主要包括四项:Alert Triage(告警分类),Command Console(命令控制台),Live Call Routing(实时分派路由) 和 Realtime Workflows(实时工作流)。


从2009年到2013年,PagerDuty一直在做产品市场验证(PMF)。到2013年,PagerDuty 的产品具备核心的压缩降噪和自动排班,以及未响应告警自动升级等功能。产品集成的监控工具并不多,但包含了主流的 Nagios(用于服务器监控)、 Pingdom(用于网站监控) 和 New Relic(用于检测应用程序);同时其用于通知告警的通道仅包括短信、电话和电子邮件。基础产品形态确定,并拥有了一批忠实的早期客户。同时在这一年,PagerDuty获得了A轮融资,加快了发展步伐。


而后一年,PagerDuty 投入大量资源完善产品。监控工具接入方面,PagerDuty 几乎能够接收来自所有监控工具的报警。告警分派和通知方面,PagerDuty 自研了移动应用程序,运维人员用其接收通知可免受其他来源的信息干扰。同时,在聊天工具层面,Pagerduty已经集成了运维人员最常用的 HipChat(隶属于Atlassian)、Slack 以及 Google Hangouts。


同时,PagerDuty正式发布了“分析仪表板”功能模块,能够为用户提供基本的分析报告,解决“我的 IT 运维团队表现如何?”以及“我的系统表现如何?”等问题。此外,还能自动判断问题是否已经出现过,具备知识库功能。至此,PagerDuty的产品已经初具 IT 运维能软件的雏形。


2015年,高歌猛进的 PagerDuty 已经成长为 Incident Management(故障管理)领域的领导者,其用户社区不乏“几乎狂热的追随者”。一位运维开发工程师在试用了 PagerDuty 之后对其赞不绝口。


PagerDuty新手注册使用流程“简便易用”,并且一切交互都极其快速,触手可得。首先注册只需要电子邮件和密码,完成后在10秒内即可收到短信、电话和电子邮件三个渠道发来的测试警报;然后,其集成工具十分丰富,包括 HP SiteScope、New Relic APM、CopperEgg在内超过50种;最后,其还支持自行配置RESTAPI,以及以10分钟为单位的自动告警升级功能。“整个试用过程十分连贯,功能触手可得,我真正体验到了优秀产品的魅力!”一位社区用户在测评网站 cna.rovinstechnologies.com 感叹道。


至此,PagerDuty 的核心产品已经成熟。但这也意味着,产品创新遇到了瓶颈。时任 CEO Solomon 意识到这一问题的严重性,于是在2016年主动引入新任 CEO Tejada ,开启了从产品向平台转型的新阶段。


2

 转型平台公司,监控集成达175个


平台转型期间,PagerDuty的目标市场扩张至现代化故障管理领域。充分打磨了4项核心能力:New API's & Search(API 扩展以及检索),Response Plays(响应工作室)、Postmortems(事后分析)和 Stackholder Engagement(跨部门协作)。


2016年,PagerDuty 以DevOps 运动的名义,召开了第一届 PagerDuty 峰会。并在会上公布了最新的产品进展:新增工作流扩展、实时分派路由、响应说明以及对开放部分全新的 PagerDuty 事件管理平台访问权限。


随后的 2017年,PagerDuty 优化了产品定价模式,并持续加强已经构建好的产品壁垒--继续扩大原生产品集成数量至超过 175 个,并完成了 API 封装,极大提升了用户接入监控时的效率。同时,增加了事件分类,历史类似事件可视化功能,并推出了知识库,可供用户快速定位根因并找到解决方案。


在平台转型期结束时,PagerDuty在产品中正式引入机器学习技术。扩展了包括机器学习、自动化、移动App以及企业级服务的能力,增强了根因定位和解决方案推荐自动化功能,为后续产品线扩张打下良好的基础。


3

 发布两款新产品,重启创新之路


2017年,在Tejada的带领下,PagerDuty 重启产品创新之路,并带领公司走向二次增长。这一时期的典型标志便是产品线扩增,进入“多产品矩阵时期”。


多产品矩阵期,PagerDuty的目标市场再次扩张,来到实时运营(Real-Time Operation)领域。同时开始打磨四项核心能力:Prescriptive DashBoards(预置看板)、Real-time Visibility(实时数据可视化)、Health Scores(健康度测评) 以及 Impact Metrics(影响性指数),以期为企业数字化运营提供更好地透明度以及更准确的预测性。


这一时期的主要创新开始于推出 PagerDuty Visibility 和 PagerDuty Analytics 两款产品。将原先的可视化能力共享给 IT 管理人员以及企业业务高管,并可提供实时的机器/人工数据处理和洞察。


这两款产品的推出,标志着PagerDuty 开始扩张产品线,同时开始“出圈”。其目标市场也不仅限于故障管理,而是更宏大的企业实时运营。


PagerDuty 知名客户 GE Digital 云自动化负责人 Ben Hwang 提到 PagerDuty 时说,“PagerDuty Visibility 统一了企业内部数据可视化的呈现方式,并以数据为支撑,清晰地划分了我们的业务团队和技术团队之间的权责。最终,PagerDuty Visibility 使 GE 在不影响分类的情况下完成了业务态势感知管理。



03

从 On-call 事件管理到数字化运营平台,PagerDuty的野心不止于此


2019年,PagerDuty 终于修成正果,在纳斯达克上市。回看2019年PagerDuty的招股书,其产品被定义为“PagerDuty Platform for Real-Time Operations”(实时运维平台)。目标是让客户了解他们的业务如何运作、基础设施和应用程序如何执行、如何应用自动化技术帮助团队专注于更高效地工作,以及如何更好地管理团队健康。


PagerDuty 在2019年时的产品包含PagerDuty On-Call Management,PagerDuty Modern Incident Response,PagerDuty Event Intelligence,PagerDuty Visibility 以及 PagerDuty Analytics 五个功能模块,对应的功能简述如下:


PD产品架构图-2019.png


  • PagerDuty On-Call Management:使团队能够有效地自动化识别、分类、管理事件和协调响应。主要功能包括自助服务调度、事件管理、跨渠道动态通知和自动化升级。


  • PagerDuty Modern Incident Response:建立在 On-Call Management 的基础上,通过添加自动化、协作和最佳实践工具以实现跨多个团队成员的快速响应。而现代事件响应包括通过响应行动、协作工具、企业内部交流和事后分析实现工作流自动化。


  • PagerDuty Event Intelligence:应用机器学习来关联和自动识别来自数十亿个告警的事件,并不断从类似事件中学习,为团队提供更好的上下文背景和洞察力。事件情报功能使团队能够减少手动工作并提高工作效率。


  • PagerDuty Visibility:为CTO、开发人员和 CEO 提供了一个共享的、实时的视图,了解事件发生时的运营状况和业务影响。


  • PagerDuty Analytics:将机器和响应数据与业务指标相结合,让组织深入了解他们的数字运营绩效、对客户和员工的影响以及他们的业务成本。客户可以使用这些数据来通知、管理和改进运营和人员。


其中,PagerDuty Event Intelligence 和 PagerDuty Analytics 都使用了机器学习相关技术,然而最大的不同在于前者基于事中的海量数据提取信息,提高当下处理事件的效率。而后者则基于事后的业务指标进行分析,优化已有的运营规则和人员。


同样在2019年,PagerDuty利用资本市场的力量,收购了 Rundeck,并推出 PagerDuty Runbook Automation 功能。到2021年9月,PagerDuty又推出了一项名为“智能分流”的新服务。新功能利用与当前问题相匹配的历史数据,智能化地分析正在发生的事情,以及哪些公司团队或网络可能会受到影响。


两大新服务的推出,标志着PagerDuty产品智能化又向前迈出了一步,在故障响应场景下初步做到了防患于未然。


而今,PagerDuty平台已经从原先的实时运维平台(PagerDuty Platform for Real-Time Operations)升级为数字运营管理平台(PagerDuty Platform for Digital Operations Management)。产品形态也发生了变化。


PD产品架构-2021.png


正如PagerDuty 在2021年年报中所说“2021年,PagerDuty平台发布了新功能——推进机器学习、自动化和变更管理智能化功能,同时为客户服务团队推出我们的第一个数字运营解决方案。同时,PD提供的集成已经超过500种。以此为基础,PagerDuty新的目标市场定位于数字化加速,云迁移和DevOps转型”


而其中最值得关注的,是新增的Runbook Automation 功能,原先的 PagerDuty Event Intelligence 升级为 PagerDuty Intelligent Event Management,以及 PagerDuty Visibility 升级为 PagerDuty for Customer Service。这三个功能分别用于:


  • PagerDuty Runbook Automation:使用户能够创建跨越不同脚本、工具、API 和系统命令的工作流,协同调用相应的工具。

  • PagerDuty Intelligent Event Management:与PagerDuty Event Intelligence相比,新功能增强了机器学习自动关联和识别故障的能力,并可自动分组,同时深度降噪。

  • PagerDuty for Customer Service:与PagerDuty Visibility相比,增强了双向通信和全栈工具,可以自动化地快速协调问题响应,还可以集成最受欢迎的解决方案。


经历三个跨越式发展阶段的洗礼,如今的 PagerDuty 已经成长为一家支持 IT运维、业务运营、企业高层等多职能团队的公司。在 PagerDuty 最新的对外会议上,其表明了自己进入Automation领域的意图和决心,而这一市场的规模,将会是 On-Call Management 市场的数倍。



04

写在最后


从 PagerDuty 产品发展历程来看,我们可以看到这家公司付出的艰辛与努力。On-Call Management 是一个很窄的领域,创业初期或许并不是那么引人注目。


但一路走来,除了每年大量的研发投入,以及优秀的产品服务设计之外,大量的客户数据积累和产品反馈也是 PagerDuty 成功的关键。


正如一位资深用户提到“如今,解决事件监控所需的底层技术已经成熟,但对于一个成功的产品来说,仅有技术远远不够。背后投入的时间、财力、人力以及海量用户的场景打磨才是关键。并且,好用的产品由于其规模化基础,往往还能节约成本”。



TAG标签:事件管理DEVOPSAIOPS智能告警平台
立即开启智能告警管理之路
@版权所有 © 四川睿象科技有限公司 - 蜀ICP备19004207号