从ALPHAGO的成长看智能化运维-睿象云平台

从ALPHAGO的成长看智能化运维

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

从ALPHAGO的成长看智能化运维

做AIOPS都会对全链路状态检测寄予厚望，在信息系统中，很多IT组件或者业务流程都存在上下游关系，上下游之间是存在相互影响的。如果在单一的运维对象上不容易做异常检测，那么做全链路的异常检测的难度就会降低，同时异常发现的准确率也会提高。

做全链路异常检测的一张常用方法是基于全链路状态标签的。首先对整个系统逻辑架构或者应用逻辑流程上的各个组件标注标签。

然后通过这些标注，通过AI算法去做问题的发现。从理论上来看，这种做法是行得通的。如果我们能够较为准确的把这些标签自动打上，根据一些时间序列上面的算法拟合，是能从这些标签上找到一些规律性的东西的。通过这种方式发现的规律，加上一定的人工标注，肯定可以训练出一些智能模型，用于预测问题与故障分析。

另外一种做法是基于专家经验的，通过专家梳理出来的经验去设置预警规则，通过预警规则对各个IT组件进行综合分析，最终进行故障预警或者诊断分析。比如某个存储的主机IOPS、IO吞吐量总体正常，各个HOST IO延时都是正常的，但是使用这台存储的某台数据库服务器的IO延时异常，那么我们需要检查一下这台数据库服务器到这台存储设备的整个SAN链路是否存在异常（数据库服务器本身的问题之外）。这是一个了解SAN存储架构的存储工程师都能够掌握的知识，这些知识对于问题排查十分关键。以前这些知识都分散在不同人的脑子里，没有进行很好的梳理。如果把这些知识梳理出来，那么就能解决我们目前运维工作中的大多数问题。

这两条技术路线，到底哪条是正确的呢？现在做AIOPS的提出的都是很高的目标，要超越人类的专家能力。这个目标确实很远大，也很令人神往，不过似乎目前AIOPS做的事情都是在从头发现以前专家早已了解的知识。如果某个AI算法能够算出一个专家在二十年前就知道的知识，那么大家都会说“真的不得了”，就好像一个大人听到一个5岁的孩子背诵《静夜思》一样。有人可能觉得老白低估了AIOPS的能力，ALPHAGO就是一个很好的例子，在短短的几年时间里，ALPHAGO就从技不如人到横扫人类，AIOPS的未来也是可期的。

这一点是所有做运维自动化的人的共识，AIOPS早晚会完全替代人类的专家的。不过就以ALPHAGO为例，ALPHAGO的1.0版本是通过学习人类的棋谱，从而完成围棋的各种基本知识的积累的。通过不断地积累，利用ALPHAGO强大地算力，让ALPHAGO在完成了大量地对局后，可以轻松地战胜人类的顶级棋士，1.0的ALPHAGO主要是依靠算力战胜人类的。而ALPHAGO 2.0就更牛了，它已经不依赖于人类的棋谱了，仅仅从围棋的本质就可以突破人类上千年围棋研究的局限，下出“神之一手”。老白没研究过ALPHAGO，不过我还是坚信，如果没有1.0对人类棋谱的学习，就不可能有2.0的对围棋的颠覆性突破。

我想AIOPS也是这样的，放弃二三十年的专家经验，直接进入ALPHAGO 2.0阶段，是不是一种技术路线上的错误呢？我们现在连运维自动化的专家经验汇聚工作都没有做好，就直接跳过这个阶段，进入全数字的阶段，是不是会变成空中楼阁呢？

现在AIOPS普遍采用的计算，打标签，专家标注，模型构建，实战验证，这条路似乎是走得通的，但是我们需要多少个有效样本才能构建出一个原本十多年前就已经被运维领域的专家所认知的知识呢？

我觉得如果专家经验构建出一个模型，通过这个模型发现的问题，结合智能化标签标注的数据去做辅助分析，是能够大大提升专家的分析效率的，甚至一些以前专家常常忽略的地方，在AIOPS的自动标签帮助下，也能够被专家很快发现出来。这些发现可以快速的优化专家的模型，从而构建出更好的专家模型出来。同时这个循环也可以让专家做出大量的高质量的标注，为构建AI模型也提供了很好的数据。

采用这种模式去做AIOPS是不是更容易落地呢？仅仅是一家之言，可能比较片面，不过这是以我的局限性思维中，能够想象到的最好的方案了。

标签：AIOPS