AIOps 实践思考:AIOps 如何与 APM 结合?(AIops社区)

网友投稿 781 2022-09-23

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

AIOps 实践思考:AIOps 如何与 APM 结合?(AIops社区)

背景

监控数据获取的问题

监控工具繁杂、无效数据充斥大量人工配置、缺乏问题的第一级识别

隐患发现的问题

静态阈值:潜在隐患不能及时发现、重大隐患处理延迟

信息检索和甄别难度大:海量信息难以迅速定位原因

告警的问题

事件处理效率低:历史告警无模型缺少事件压缩和升降级:大故障时消息洪水带来副作用

处理的问题

缺乏有效的数据依据:严重依赖人脑和经验处置后无法评价:只存在故障的是与否,一旦波动束手无策

智能异常检测

这里我们提到的异常检测,特指从海量的运维监控数据指标中,针对时间序列类型数据指标的不正常问题发现。简单说,即发现历史数据中与大部分对象不同的离群对象,这不同于依靠人来判断的指标评价,能够更有效地提升发现问题的准确性和时效性。

智能告警

使用历史数据学习得到的动态阈值替代静态阈值,更及时地发现重大隐患或故障。

智能的告警消息相关性分析和收敛,解决故障发生时,告警风暴带来的副作用。通过对告警消息的相关性分析,可以识别出告警的模式,将多条相关告警合并或转化成一条具有更多信息的告警,从而帮助更快更准确地诊断故障。

智能故障根因分析

在故障管理的检测、定位与识别的三个阶段中,故障的识别和诊断尤为重要。根因分析也被称为故障定位、故障隔离或警报/事件相关性,是推断产生一组给定症状的一组故障的过程。根因分析要求必须使用一个解释故障和症状之间关系的模型来执行这个推理过程。

智能时间序列预测

基于海量的历史数据习得模型,对未来的趋势的变化进行预测,并在生产过程中持续不断的进行模型的补偿修正,同时可以实现故障或事故发生前较准确的提前预警。

在这一系列典型的场景中,可预期的输出结果有影响范围、原因概率和影响概率、具体的某个类型的对象实体。而要求输入的数据能够满足以下几个方面:

足够存量的数据以及足够的数据增量

只有足够存量的数据才有条件去进行模型的训练只有足够的数据增量才有条件补偿修正训练得到的模型

数据维度覆盖度要(时间维度、地域维度、系统级维度、应用级维度等)足够

AIOps 为什么可以与APM相结合

前面已经列出了本文要解决的问题和需求,下面试图论述 AIOps 必须与 APM 相结合的必要性。

用户端体验数据

包括各种浏览器和 APP(原生或 H5 或混合模式)客户端下的首屏时间、DNS解析时间、首包时间等指标、JS 错误、IP 运营商数据、崩溃分析、卡顿分析、HTTP 和 Socket 链接与请求时间与错误率、资源加载等数据。更为重要的是基于Session Path 得到的用户行为路径数据,这使得从客户端采集到的所有数据天然地获得了用户行为的属性 – 这对于海量客户端倾刻间产生的海量数据,是一个多么棒的消息!

应用性能数据

服务器和服务的状态数据

端到端的数据联系

利用 APM 系统得到的数据实践于 AIOps,最有利的武器便是 Trace 模型。利用 Trace 模型得到的数据是具备了天然的数据联系的。基于 Trace 模型也很容易进行扩展,即将浏览器和 APP 客户端也加入到模型中。端到端指客户应用端到 Server 应用端的数据,在用户发起请求的最贴近用户侧产生惟一的 Trace ID、并通过 Request Header 或其他请求属性向 Server 端应用传递,于是用户端体验数据、应用性能数据、服务器和服务的状态数据,这三大类数据便有了天然的关系标记。

AIOps 如何与 APM 结合

通过 APM 和 APM 采集数据的简单介绍,不难看出实践 AIOps 所需要的数据需求,以及 APM 系统提供的各维度数据。在这个供求关系中,APM 系统提供的数据存量和增量足够满足、数据维度的覆盖度足够满足、数据间的归属和关联标记堪称完美。

我们再回过头来看,针对传统运维的痛点抽象出的几个典型场景,APM 系统提供的数据能否很好的应对:

智能异常检测

在 APM 系统中,关键事务是一个重要的需求场景。通过用户指定或系统习得的具备高频访问或至关重要的关键业务被称为关键事务,由于数据产生的时序性,在异常检测场景中,不仅可以很好地进行异常检测,也可以基于调用链的关系和用户行为来做故障的范围预测。

智能告警和智能时间序列预测

这两个典型 AIOps 场景对于 APM 系统提供的数据同样适用,并且由于数据间的系统级与应用级关系,模式识别变得更加简单高效,关系模型可以直接应用于告警模型的训练中,成功规避了场景中监督或半监督里最头疼的人为干预的难题。应用智能告警收敛,AIOps 系统可以提供闪断、高频、阴断等多种告警压缩规则,基于算法削减无价值消息,缩短问题发现时间排除消息洪水的干扰。

智能故障根因分析

前面已经较为详细地介绍了多种 Trace 模型,并且论证了因 Trace 模型而带来的数据间的天然关系。据 Gartner 多名分析师称:APM 系统实践 AIOps 最有利的武器便是 Trace 模型,它为分析问题提供了主线条。如果不用 APM 的话,应该怎么做呢?通常会根据人员经验或根据特定的业务场景,在应用程序中埋入追踪代码,即通称的“打点”法,这具有很大的局限性并因业务变更具有很大的操作难度,几乎不可能或很难进行标准化和产品化。

利用 APM 系统提供的数据实践 AIOps,从应用健康、用户体验或业务表现的外部视角来审视故障,如发现到某个具体的关键事务非常缓慢、某地域的用户受到了严重影响,关联诊断到最可能影响性能的代码段或 SQL 语句、应用服务器或中间件的某个节点 Load 或 IO 情况。

转自:互联网后端架构

上一篇:MongoDB 性能优化五个简单步骤(mongodb是哪家公司的)
下一篇:运维人的 KPI 救赎!(运维人的初夕夜新闻稿)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~