创业公司的监控告警需要几个人?一个就够了

来源网友投稿 891 2022-09-18

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

一家年轻的互联网初创公司,通过一个好的idea获得了一批用户,当他们的用户增长的时候,就面临一个问题:为了防止服务崩溃,该如何做好监控告警?


有统计显示,初创公司服务崩溃带来的用户流失率几乎达到了70%,而对于大公司来说,有80%的用户希望有更好的体验。


一家用户至上的创业公司,要在客户发现之前知道服务出了什么问题,就要建立一套强大的监控告警系统!这样就可以避免故障发生,或者把故障影响降到最低了!


那么创业公司的监控告警要怎么做呢?


监控系统

对于公司来说,监控告警系统有两种选择:现成产品或者自研,现成产品又分为开源和商业软件。


初创公司业务量小的时候需求简单,能通知,定位问题就可以了。主要的要求是:简单易用,稳定,能告警通知。


基于以上需求,可以使用市面上主流开源监控告警系统,像国外的zabbix、nagios、promethues都是非常优秀的开源产品,这些主流开源产品支持文档多,社区也很活跃,基本不会遇到找不到问题解决方法的情况。


当业务量涨起来的时候,为了覆盖业务流程,监控的对象越来越多了,告警也越来越多了!这个时期运维都会对开源监控系统编写脚本,使用各种插件来满足需求了。


如果创业公司侥幸成长为独角兽,获得了大量用户的时候,开源产品很快就不能满足需求了!因为语言、技术栈等不一致,很多公司都会自研监控系统,比如滴滴的夜莺,小米的Open-Falcon等。他们很多都开源了,不过用的人不多,功能也不是很完善,还缺少支持。


开源软件的一个缺点是配置普遍都很麻烦,个性化需求无法满足。如果公司不差钱的话,可以使用一些商业监控,比如datadog,oneapm等,功能强,操作简单使用体验很好,支持服务也很及时。


告警模块

就像之前说的,各种开源监控系统都会自带告警模块,这些模块其实都比较简单。


早期的时候,监控比较少的项目,能告警就行,一般邮件、微信告警就可以满足。


用户量大了以后,监控项目比较多,可能还会使用多个监控系统。设置好多个监控告警后,你会发现告警太多了!很多告警还是重复的,而且很多都是夜里发的。


多个监控告警怎么管理?谁来压缩告警,在夜里处理重复告警?这时候第三方告警平台是很好的解决方案,比如国外的pagerduty,国内的睿象云智能告警平台。


这类工具可以实现快速接入Nagios、Zabbix等多个主流监控平台的告警,几分钟就可以配置完成,让运维人员集中处理IT事件,避免多平台切换,提升运维效率。


在汇聚多平台告警的基础上,还可以将大量重复的告警事件压缩降噪。人工智能还可以通过机器学习把相关的告警分析关联起来,发现异常事件。


总结

随着云计算的发展,监控和告警已经进入了一个新的阶段,一体化的SaaS解决方案越来越受到欢迎,用户再也不用操心集成不同系统,数据库,中间件的问题了!


这对于招人和用人成本极高的创业公司来说,也是一个好事。各种现成的工具和服务可以节省时间和金钱。搞定监控告警,一个人就够了!



上一篇:Gartner:AIOps「智能运维」真的来了,并且是趋势(aiops运维决策时间)
下一篇:为什么国内很多公司都自主开发监控告警系统?
相关文章

 发表评论

暂时没有评论,来抢沙发吧~