我们想从运维自动化系统中获得什么

网友投稿 870 2022-10-04

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

我们想从运维自动化系统中获得什么

我们购买一套运维自动化系统,原本是希望能够从这场交易中获得一种能力,不过大部分用户购买了一套系统后才发现,他们仅仅获得了一套系统,并没有获得他们所需要的能力。前些年,一个客户突然打电话给我,问我能不能推荐一套网络链路监控的软件,因为他们昨天出了一次网络故障,花了半天时间才搞定。正是这个客户,在2018年成为了我们D-SMART的第一批客户,那次也是因为他们的一个核心数据库出了问题。

这是一种十分典型的用户,他们自身的运维能力存在很多不足,所以希望通过购买各种工具来弥补他们存在的能力不足,因此他们希望购买的是一种能力。确实有些工具帮助他们弥补了一些运维部门的能力不足,但是也带来另外一个问题,他们以前遇到的故障可能再也没有出现了,出现问题的地方是他们的另外一个能力短板。而他们购买的运维软件,往往买回来的也不是能力,而是一套软件而已,如果要形成能力,他们需要对软件进行大量的配置,并且根据他们的实际情况进行一定的定制,而在他们的经费里面并没有包含这部分,或者说他们企业甚至销售软件的集成商并没有这种能力。

二十年前我的两个客户差不多同时购买了BMC的PATROL用于网管监控。其中一个客户仅仅购买了PATROL,配置了一些基线就开始用了,用了一段时间发现这玩意基本上没啥用,现场运维人员看到大量的基线告警也不知道该如何处理,于是这套系统就变成了摆设。而另外一个客户幸运的多,他遇到的系统集成商告诉他要用好Patrol必须进行定制化开发,他们想监控的东西,或者说他们能看懂的监控信息在标准化的PATROL中可能不够全面,如果他们每年能出几十万,那么他们可以根据他们的监控需求帮他们定制监控指标。他们做成了这笔交易,因此这个客户也把PATROL用得很好。每当有用户说PATROL没啥用的时候,我都会用这个故事让他们明白并不是PATROL不好,而是他们没有把PATROL用好。他们仅仅购买了一套软件,而并没有获得软件的能力。

同样的故事发生在蓝鲸用户身上,我遇到几个蓝鲸的用户,都说蓝鲸不好用,而有一个土豪用户却说蓝鲸不错。为什么呢?实际上蓝鲸就像一套200平米的大平层一样,户型是通透规整的,只不过这是一套毛坯房,你想要拎包入住的话,那就会觉得很差了。而如果你是一个土豪,不仅仅花了1000多万买了这套房,还愿意再用200万来做个精装修,那么住起来肯定会很爽。而实际上我们很多用户花完买蓝鲸平台的钱之后,并没有考虑对其进行精装修,或者说已经没钱做精装修了。那么你购买的仅仅是一套软件,而并没有买到这套软件提供的能力。

2006年的时候,东亚银行上QUEST公司的APM,当时我和他们CIO交流的时候和他说,你花200万买QUEST的APM,那么你要做好思想准备,花500万把APM用起来。他认可了我的观点,后来这个项目在充足实施经费的支撑下,应用效果的还不错。

很多企业在经历了多次买能力买到软件的痛苦之后,不太相信商用的运维监控软件了。他们觉得哪怕做的再好的运维监控软件,产生的监控图表和数据,还是要人来看的,反正也是花钱,我还不如把钱花在人身上了。而正好ZABBIX、普罗米修斯之类的开源监控平台大行其道,利用这些“不花钱”的开源项目构建一些监控平台,通过各种插件来构建全面的监控采集,实在不行自己改改代码,再用人去看告警和监控数据,这种投资比以往的那种购买商业系统要划算的多。确实是这样的,这种方式不仅仅是少花了钱,而是工具+人的模式让企业真正获得了所需要的运维能力。

ZABBIX、普罗米修斯等让企业真正的具备了全面的监控能力,只不过随着企业信息化的深入,grafana的仪表盘似乎也有点肤浅了,企业需要更深层次的运维诊断能力了。而这种能力的获得成本更高。一些大企业还可以通过持续的投入不断获得这种能力,而很多企业对于监控告警之上的分析诊断能力的获取变得力不从心。

前些年我受到ALPHA GO的激励,曾经想通过大数据分析和大量的AI算法来低成本的获得这种深度分析、故障溯源、系统优化的能力,经过几年的尝试,我逐渐放弃了,AI的方向也许没错,但是目前这个阶段,在信息系统运维领域想要解决故障溯源和系统优化,还差的很远,最主要的是获得能力的成本过高,算法的普适性应用太难。

这两年,我越来越觉得社区协作恐怕是解决这个问题的比较现实的方法。哪怕想要通过AI来解决运维的问题,所需要的数据样本,故障案例,仅仅依靠一家企业自身的积累,恐怕二十年都很难完成。只有依托社区协作,有大量的用户能够参与,能够共享知识与案例,也能够从中获得远大于付出的收获,这样才能在目前的条件下实现这个目标。

DBAIOPS社区的想法最初是2020年疫情期间开始萌芽的,因为无法去现场做分析,于是好几个D-SMART的用户都把监控数据远程发给了我们,让我们帮他们做巡检,提供优化建议。我们在实验室分析这些数据的时候发现了很多个性和共性的问题。针对这些问题,我们从中总结出了大量的运维经验,并发布在D-SMART中,现在这些运维经验在这些用户那里都在发挥着作用。

有一天我突然想到,如果能够构建一个社区,实现这种知识共享,企业级用户能够从社区用户的故障中获得一些新知识,而社区用户也可以用比较低廉的价格获得类似企业级用户的运维知识与能力,那不是一个双赢的局面吗?

上一篇:浅谈运维工程师职业发展
下一篇:基于Python的开源运维堡垒机(跳板机)系统
相关文章

 发表评论

暂时没有评论,来抢沙发吧~