aiops使用指南（aiops devops）

来源网友投稿 854 2023-03-05

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本篇文章给大家谈谈aiops使用指南，以及aiops devops对应的知识点，希望对各位有所帮助，不要忘了收藏本站喔。今天给各位分享aiops使用指南的知识，其中也会对aiops devops进行解释，如果能碰巧解决你现在面临的问题，别忘了关注本站，现在开始吧！

本文目录一览：

1、什么是 AIOps？
2、AIOps是什么？和AI有什么关系？
3、什么是AIOps智能运维？
4、【RPA技术】前 5 个开源 RPA 框架——以及如何选择
5、如何做好运维监控？

什么是 AIOps？

AIOps（即人工智能 IT 运营）是应用人工智能 (AI) 来改进 IT 运营的方法。具体而言，AIOps 使用大数据、分析和机器学习功能来执行以下操作：

通过将多个单独的手动 IT 运营工具替换为单一的智能自动化 IT 运营平台，AIOps 使 IT 运营团队能够更快地作出响应，甚至主动处理慢速和中断事件，从而大幅减少工作量。

参考： AIOps

aiops使用指南（aiops devops）

AIOps是什么？和AI有什么关系？

我们现在提到的 AI，更多的是依赖机器学习（包含深度学习）算法的实现的 AI 场景，或者说机器学习算法只是实现 AI 的其中一种手段。了解了上面的概念，再回到 AIOps 上来，拆分为 AI + Ops 会准确一些，也就是 Ops 与 AI 相结合可以做的事情。
AIOps 涉及的技术，从 AI 的角度，主要还是机器学习算法，以及大数据相关的技术，因为涉及到大量数据的训练和计算，从 Ops 的角度，主要还是运维自动化相关的技术。另外 AIOps 一定是建立在高度完善的运维自动化基础之上的，只有 AI 没有 Ops，是谈不上 AIOps。

什么是AIOps智能运维？

智能运维AIOps平台，往往是通过大数据、机器学习和可视化的方式让IT运维工作变得更高效。企业基础设施与运维负责人应该尽早启动AIOps平台部署工作，优化当前的性能分析，并在未来两年至五年内扩展至IT服务管理和自动化领域。

AIOps平台是将大数据与机器学习功能相结合的软件系统，主要对IT系统不断产生的数据量、类型和速度进行拓展性的采集和分析，以支撑IT运维的主要功能。该平台能够同时使用多个数据源、数据采集方法、数据分析及演示技术。

AIOps可以应用到广泛的IT运维流程及场景中，包括性能分析、异常检测、事件关联分析、IT服务管理和自动化。

核心功能包括：

从各种数据源中提取数据

对提取的数据进行实时分析

对存储的数据进行历史分析

提供数据访问接口

存储采集数据

使用机器学习技术

根据分析结果启动操作

AIOps在企业中日益占据主导地位，而一些成熟的组织已正在利用该技术为企业领导者提供决策支撑。

【RPA技术】前 5 个开源 RPA 框架——以及如何选择

在许多组织中，自动化和人工智能/机器学习的第一步是采用机器人过程自动化 (RPA) 技术。

许多企业正在使用 RPA 来提高成本和 IT 流程的效率。在许多情况下，减少错误、时间、成本和冗余操作可以改善客户和其他利益相关者的工作流程。

RPA 的核心是帮助组织自动执行大量完成的已定义的、多步骤的手动任务。RPA 通过创建复制人类行为以与现有应用程序界面交互的软件机器人来做到这一点。

RPA 有可能将成本降低 30% 到 50%。这是一项明智的投资，可以显着提高组织的底线。它非常灵活，可以处理广泛的任务，包括进程复制和网络抓取。

RPA 可以帮助预测错误并减少或消除整个流程。它还通过使用智能自动化帮助您在竞争中保持领先。它可以通过创建个性化服务来改善数字客户体验。

开始使用 RPA 的一种方法是使用开源工具，这些工具没有预付费用。以下是您的第一个 RPA 计划要考虑的五个选项，每个选项的优缺点，以及有关如何为您的公司选择正确工具的建议。

在埃森哲，我的团队主要使用商业工具实施 RPA，但我们也使用开源工具，并且可能会为给定的客户使用组合。也就是说，开源选项是一种轻松涉足 RPA 领域的方法，无需对软件进行大量投资。

与商业 RPA 工具相比，开源降低了您的软件许可成本。另一方面，它可能需要额外的实施费用和准备时间，并且您需要依赖开源社区的支持和更新。（有关一些潜在缺点的更多详细信息，请参阅“使用 AIOps，在开源之前三思而后行”中的讨论。）

是的，商业和开源 RPA 工具之间存在权衡——我会在一分钟内讨论这些。但是，当用作 RPA 实施的操作组件时，开源工具可以提高企业项目的整体投资回报率。这是我们的竞争者名单。

Taskt 以前称为 sharpRPA，是一个免费的 C# 程序，使用 .NET 框架构建，具有易于使用的拖放界面，让您无需任何编码即可自动化流程。

我的团队经常与只有 C# 开发技能的客户合作，Taskt 是 C# 为中心的团队用来开始 RPA 的好工具。

您可以通过 GitHub 上的示例来探索 Taskt，您还可以在其中找到设置任务自动化流程的分步指南。我们的许多开发人员都有强大的 Microsoft/Azure 背景，并发现使用 C# 使用 Taskt 创建脚本要容易得多。该工具具有 Microsoft 的影响力，这将使喜欢 Visual Studio 或 Azure 开发环境的团队受益。

底线：如果您的团队习惯于开发 Microsoft C# 解决方案，Taskt 是一个很好的工具。

Robot Framework 庞大的开源开发者社区使其成为该列表中最先进、最稳定的开源 RPA 解决方案。使用 Robot Framework 有几个主要好处：

供应商联盟支持开源社区更新核心产品。

Robot Framework 在多个平台上运行，使开发团队更容易采用和实施它。

核心框架可以通过扩展的插件库进行扩展。

复制自动化的默认机器人可以根据企业的需求进行扩展。

虽然我的团队经常使用 Robot Framework，但该工具很复杂，如果您正在寻找第一个 RPA 解决方案的原型或者如果您是 RPA 新手，那么它可能不是最佳选择。也就是说，经验丰富的 RPA 开发人员将欣赏您如何使用 Robot Framework 来管理复杂的 RPA 任务。

TagUI 是一种多层且复杂的工具，具有丰富的脚本语言，可让您完成复杂的 RPA 指令。您使用 TagUI 的脚本语言开发每组指令，称为“流程”，并将其保存在扩展名为“.tag”的文本文件中。然后，您可以使用终端窗口/命令提示符执行每个流程。

每个流脚本可以识别以下内容：

访问网站或打开应用程序的说明

在哪里点击屏幕

要键入的内容

IF 和 LOOP 指令

TagUI 脚本语言的丰富性使其成为我们团队的最爱。我们可以快速启动并运行该工具，脚本可以作为 .tag 文件共享以创建库，并且维护脚本库很容易。TagUI 适用于实施 RPA 的中级或高级团队。

UI.Vision（以前称为 Kantu），既可以作为桌面上的独立客户端运行，也可以作为 Web 浏览器中的插件运行。它不需要您学习如何编写脚本，因为它是由点击式界面驱动的。如果您是 RPA 新手并且 IT 资源有限，那么这使得 UI.Vision 成为一个很好的工具。

也就是说，我的团队很少使用 UI.Vision。我们使用它在现场演示中展示 RPA 的功能，但该工具缺乏此列表中其他工具支持的更复杂场景所需的功能——这是您通过点击式界面获得的权衡。更复杂的控件需要 UI.Vision 不支持的脚本和终端窗口访问。

虽然 Open RPA 提供了许多自定义和自动化功能，但其主要区别在于其架构。简而言之，Open RPA 是一个成熟的工具，可以为各种规模的公司提供支持和扩展。它支持上面列出的其他工具列出的许多功能，包括：

远程管理

远程处理状态

与领先的云提供商集成

调度

分析仪表板

由于开源社区中有许多积极的项目贡献者，因此此处列出了 Open RPA；您可以期望每周看到几次更新。我的团队在使用 Open RPA 方面的接触有限，因此我们无法保证，但我将其列为您可能想要尝试的替代解决方案。

对于许多中小型公司而言，前期许可成本是启动 RPA 计划的障碍。在这些情况下，开源可能是您的最佳选择。在较大的公司中，开源工具可能有助于填补商业产品可能无法填补的空白，例如自动化 Python。

RPA 是一种新兴技术，在许多组织中仍处于早期采用阶段。这就是为什么开源和商业工具可以相互补充的原因之一。

这里没有万能的解决方案，因此您应该关注 RPA 提供的好处和价值，以及在您的预算下可以使用哪些工具来释放该价值。随着您的计划成熟，您的工具箱可能会同时包含商业和开源元素。但是开源是一个很好的入门方式。

开源 RPA 工具有一个显着的好处：由于没有许可费用，您可以使用该软件而无需通过请求预算的过程。请注意，许可通常只是运行 RPA 工具所需总成本的一小部分。

事实上，开源工具通常部署起来成本更高，并且会增加风险。

此外，要扩展 RPA，您需要熟练编写脚本和管理机器人运行环境的人员。随着公司开始了解如何自动化其他业务领域和需求，对熟练 RPA 工程师的需求变得越来越重要RPA 增长。

在制定 RPA 策略时，首先选择一个简单的开源工具来快速说明 RPA 的价值。然后，当您从原型转向规模化部署时，您将需要更复杂的东西。

更重要的是，没有一种单一的 RPA 工具可以满足所有需求，因此最好将商业和开源解决方案与一个熟练使用这些工具的团队相结合，以满足您组织的所有需求。

如何做好运维监控？

统一监控平台，说到底本质上也是一个监控系统，监控的基本能力是必不可少的，回归到监控的本质，先梳理下整个监控体系：

① 监控系统的本质是通过发现故障、解决故障、预防故障来为了保障业务的稳定。

② 监控体系一般来说包括数据采集、数据检测、告警管理、故障管理、视图管理和监控管理6大模块。而数据采集、数据检测和告警处理是监控的最小闭环，但如果想要真正把监控系统做好，那故障管理闭环、视图管理、监控管理的模块也缺一不可。

一、数据采集

1、采集方式

数据采集方式一般分为Agent模式和非Agent模式；

Agent模式包括插件采集、脚本采集、日志采集、进程采集、APM探针等

非Agent模式包括通用协议采集、Web拨测、API接口等

2、数据类型

监控的数据类型有指标、日志、跟踪数据三种类型。

指标数据是数值型的监控项，主要是通过维度来做标识。

日志数据是字符型的数据，主要是从中找一些关键字信息来做监控。

跟踪型数据反馈的是跟踪链路一个数据流转的过程，观察过程中的耗时性能是否正常。

3、采集频率

采集频率分秒级、分钟级、随机三种类型。常用的采集频率为分钟级。

4、采集传输

采集传输可按传输发起分类，也可按传输链路分类。

按传输发起分类有主动采集Pull（拉）、被动接收Push（推）

按传输链路分类有直连模式、Proxy传输。

其中Proxy传输不仅能解决监控数据跨网传输的问题，还可以缓解监控节点数量过多导致出现的数据传输的瓶颈，用Proxy实现数据分流。

5、数据存储

对于监控系统来说，主要有以下三种存储供选择

① 关系型数据库

例如MySQL、MSSQL、DB2；典型监控系统代表：Zabbix、SCOM、Tivoli；

由于数据库本身的限制，很难搞定海量监控的场景，有性能瓶颈，只在传统监控系统常用

② 时序数据库

为监控这种场景设计的数据库，擅长于指标数据存储和计算；例如InfluxDB、OpenTSDB（基于Hbase）、Prometheus等；典型监控系统代表：TICK监控框架、 Open-falcon、Prometheus

③ 全文检索数据库

这类型数据库主要用于日志型存储，对数据检索非常友好，例如Elasticsearch。

二、数据检测

1. 数据加工

① 数据清洗

数据清洗比如日志数据的清洗，因为日志数据是非结构化的数据，信息密度较低，因此需要从中提取有用的数据。

② 数据计算

很多原始性能数据不能直接用来判断数据是否产生异常。比如采集的数据是磁盘总量和磁盘使用量，如果要检测磁盘使用率，就需要对现有指标进行一个简单的四则运算，才能得到磁盘使用率。

③ 数据丰富

数据丰富就是给数据打上一些tags标签，比如打上主机、机房的标签，方便进行聚合计算。

④ 指标派生

指标派生指的是通过已有的指标，通过计算得出新的指标。

2. 检测算法

有固定规则和机器学习算法。固定算法是较为常见的算法，静态阈值、同比环比、自定义规则，而机器学习主要有动态基线、毛刺检测、指标预测、多指标关联检测等算法。

无论是固定规则还是机器学习，都会有相应的判断规则，即常见的< =和and/or的组合判断等。

三、告警管理

1. 告警丰富

告警丰富是为了后续告警事件分析做准备，需要辅助信息去判断该怎么处理、分析和通知。

告警丰富一般是通过规则，联动CMDB、知识库、作业历史记录等数据源，实现告警字段、关联信息的丰富；通过人工打Tags也是一种丰富方式，不过实际场景下由于人工成本高导致难以落地。

2. 告警收敛

告警收敛有三种思路：抑制、屏蔽和聚合

① 抑制

即抑制同样的问题，避免重复告警。常见的抑制方案有防抖抑制、依赖抑制、时间抑制、组合条件抑制、高可用抑制等。

② 屏蔽

屏蔽可预知的情况，比如变更维护期、固定的周期任务这些已经知道会发生的事件，心里已经有预期。

③ 聚合

聚合是把类似或相同的告警进行合并，因为可能反馈的是同一个现象。比如业务访问量升高，那承载业务的主机的CPU、内存、磁盘IO、网络IO等各项性能都会飙升，这样把这些性能指标都聚合到一块，更加便于告警的分析处理。

3. 告警通知

① 通知到人

通过一些常规的通知渠道，能够触达到人。

这样在没有人盯屏的时候，可以通过微信、短信、邮件触发到工作人员。

② 通知到系统

一般通过API推送给第三方系统，便于进行后续的事件处理

另外还需要支持自定义渠道扩展（比如企业里有自己的IM系统，可以自行接入）

四、故障管理

告警事件必须要处理有闭环，否则监控是没有意义的。

最常见还是人工处理：值班、工单、故障升级等。

经验积累可以把人工处理的故障积累到知识库里面，用于后续故障处理的参考。

自动处理，通过提取一些特定告警的固化的处理流程，实现特定场景的故障自愈；比如磁盘空间告警时把一些无用日志清掉。

智能分析主要是通过故障的关联分析、定位、预测等AI算法，进一步提升故障定位和处理的效率；

1. 视图管理

视图管理也属于增值性功能，主要是满足人的心理述求，做到心中有底，面向的角色很多（领导、管理员、值班员等）。

大屏：面向领导，提供全局概览

拓扑：面向运维人员，提供告警关联关系和影响面视图

仪表盘：面向运维人员，提供自定义的关注指标的视图

报表：面向运维人员、领导，提供一些统计汇总报表信息，例如周报、日报等

检索：面向运维人员，用于故障分析场景下的各类数据检索

2. 监控管理

监控管理是企业监控落地过程中的最大挑战。前5个模块都是监控系统对外提供的服务功能，而监控管理才是面向监控系统自身的管理和控制，关注真正落地的过程的功能呈现。主要有以下几个方面：

配置：简单、批量、自动

覆盖率：监控水平的衡量指标

指标库：监控指标的规范

移动端：随时随地处理问题

权限：使用控制

审计：管理合规

API：运维数据最大的来源，用于数据消费

自监控：自身稳定的保障

为了实现上述监控六大基础能力模块，我们可以按如下架构设计我们的统一监控平台。

主要分三层，接入层，能力层，功能层。

接入层主要考虑各种数据的接入，除了本身Agent和插件的采集接入，还需要支持第三方监控源的数据接入，才能算一个完整的统一监控平台。

能力层主要考虑监控的基础通用能力，包含数据采集模块、数据存储模块、数据加工模块、数据检测模块、AI分析模块。

功能层需要贴近用户使用场景，主要有管理、展示两类功能，在建设的过程中可以不断丰富功能场景。

另外，考虑到数据的关联关系，为未来的数据分析打下基础，监控和CMDB也需要紧密联动，所有的监控对象都应该用CMDB进行管理，另外，还可以配置驱动监控为指导理念，实现监控的自动上下线，告警通知自动识别负责人等场景，简化监控的维护管理。

为了统一监控平台能够在企业更好的落地，我们需要配备对应的管理体系，其中最重要的是指标管理体系。

指标管理体系的核心理念：

监控的指标体系是以CMDB为骨架，以监控指标为经脉，将整个统一监控平台的数据有机整合起来。

贯穿指标的生命周期管理，辅以指标的管理规范，保障监控平台长久有序的运行。

从企业业务应用的视角出发，一般将企业监控的对象分为6层，也可以根据企业自己的情况进行调整：

基础设施层

硬件设备层

操作系统层

组件服务层

应用性能层

业务运营层

关于aiops使用指南和aiops devops的介绍到此就结束了，不知道你从中找到你需要的信息了吗？如果你还想了解更多这方面的信息，记得收藏关注本站。 aiops使用指南的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于aiops devops、aiops使用指南的信息别忘了在本站进行查找喔。

标签：学习告警管理数据产品智能运维

暂时没有评论，来抢沙发吧~

aiops使用指南（aiops devops）

什么是 AIOps？

AIOps是什么？和AI有什么关系？

什么是AIOps智能运维？

【RPA技术】前 5 个开源 RPA 框架——以及如何选择

如何做好运维监控？

AIOps 一场颠覆传统运维的盛筵

AIOps 平台的误解，挑战及建议（中），AIOps常见的误解

AIOps 平台的误解，挑战及建议， AIOps背景及所应具备技术能力分析（上）