AIOps 平台的误解,挑战及建议(下)— AIOps 挑战及建议(AIops智能运维白皮书)

网友投稿 1043 2022-09-18

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

AIOps 平台的误解,挑战及建议(下)— AIOps 挑战及建议(AIops智能运维白皮书)

挑战

挑战1:超越当前技术水平的期望

以下是其中一例,当用户期望超越当前技术水平的一个典型的例子,车毁人亡。

美国加州湾区高速上的一起致命车祸,。一辆价值$79,500的 Tesla Model X,在行驶至山景城段101和85高速交界时,突然撞上隔离带,随后爆炸起火。

对此,遇难华裔司机的遗孀 Sevonne Huang(下文简称Sevonne)首次公开发声透露,丈夫生前曾抱怨过,特斯拉的自动导航仪,好几次让车子开向冲上防撞栏。Sevonne 说,将起诉特斯拉。

司机对于特斯拉的 AutoPilot 过度相信,最终导致了悲剧了发生。

中国的企业用户往往有大而全的建设方案,如何从企业的实际情况出发,制定节奏合适的规划,我认为是一个很大的挑战。

挑战2:算法应用场景分散,成熟度不一致,通用性差,产品化,工程化困难,大部分场景距离实际应用有一定的距离

从目前来看,大家期望利用算法解决的场景包括:

单指标异常检测; 多指标异常检测; 日志模式异常检测,根据日志的类型的变化态势,发现正常和异常情况下各类型日志出现的模式; 故障根因分析,方法多种多样,有基于传播网络,有基于依赖,有基于概率数学统计等方法; 容量预估,对现有业务情况进行分析,预测未来所需要资源使用情况; 告警智能压缩,基于根因,减少告警数量; 故障预测,目前较为常用的场景为大批量,同批次硬盘的故障预测; 基于知识图谱(运维经验)故障定位;

以上的每个智能场景,每个场景所需要用到的算法都不一样,而且成熟度差异较大。

以最为简单,但应用最为广泛,成熟度最高的单指标异常检测来举例,从学术的角度来看,如果你到 Google 里去搜索,你会发现有大约 60000 多条的记录,时间跨度从上世纪 90 年代到几天前的都会有。

从商业化的角度来看,目前从我看到的,比较成熟的也只有 Elastic 公司所收购的 Prelert 的异常检测技术,是产品化的比较好的,普通的用户是容易理解,容易使用的。

这已经是 30 年来,集合了那么多顶尖的智慧,所能达到的产品化程度最高,通用性最强的场景了。其他的场景,成熟度,或者通用性肯定是不如本场景。

例如故障预测,目前比较好的案例是预测硬盘故障,前提是你拥有大量同样型号,相同批次的硬盘,其中某一些硬盘出故障了,从 S.M.A.R.T 信息中,你才能够获得训练集,然后利用模型去预测同一个批次的故障。这种前置条件,通常只会在特定的用户,例如腾讯,百度的数据中心,一次性购置上千块的,才能出现1到15块的故障硬盘 (据统计,硬盘的故障率在0.1%~1.5% 左右),而且就算有用户根据硬盘的情况,训练好的模型因为每个用户的机房,电压,温度都不一样,很可能没有办法进行复现,因此,此场景通用性极差。

如果要将用于预测硬盘故障的算法,用到某一个 IT 业务系统之上故障上,基本上也是不可能的,因为一个系统,相应的参数,变量,可能影响系统平稳运行因子太多,已经是没有办法套用到预测硬盘故障的算法里头来了。

还有,部分的算法,在实验室中的效果非常好,准确率和召回率都很高,但是,消耗资源巨大,实时性差,没有办法投入真正的生产使用的可能性。

因此,在算法上,我们应该先去落地成熟,ROI 显著的场景。

挑战3:现有运维监控体系没有完善

在无人驾驶技术领域,最核心的一个组件是 LiDar(激光雷达),一种运用雷达原理,采用光和激光作为主要传感器的汽车视觉系统,LiDAR 传感器赋予了自动驾驶汽车能够看到周边环境的“双眼”。

世界上,几乎所有的汽车厂商( Tesla 除外,Tesla 用的是通过摄像头而实现视觉识别技术,所以我个人高度怀疑特斯拉的事故与此有关)在研发无人驾驶技术的时候,都会给车辆安装上激光雷达。

而类比到运维的场景,如果眼睛不够,数据不足,事情看不清楚,其实是很难做到明确的决策的,具体表现如下:

上一篇:产品经理说|AIOps 让告警管理变得更智能(产品经理说根据用户头发控制手机刘海)
下一篇:AIOps 平台的误解,挑战及建议(中)— AIOps常见的误解(AIops厂家)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~