包含it运维大会的词条

来源网友投稿 495 2023-02-23

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈it运维大会,以及对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享it运维大会的知识,其中也会对进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

IT运维平台算法背后的两大“神助攻”

智能运维(AIops)是目前 IT 运维领域最火热的词汇,全称是 Algorithmic IT operations platforms,正规翻译是『基于算法的 IT 运维平台』,直观可见算法是智能运维的核心要素之一。
本文主要谈算法对运维的作用,涉及异常检测和归因分析两方面,围绕运维系统Kale 中 skyline、Oculus 模块、Opprentice 系统、Granger causality(格兰杰因果关系)、FastDTW 算法等细节展开。

一、异常检测

异常检测,是运维工程师们最先可能接触的地方了。毕竟监控告警是所有运维工作的基础。设定告警阈值是一项耗时耗力的工作,需要运维人员在充分了解业务的前提下才能进行,还得考虑业务是不是平稳发展状态,否则一两周改动一次,运维工程师绝对是要发疯的。

如果能将这部分工作交给算法来解决,无疑是推翻一座大山。这件事情,机器学习当然可以做到。但是不用机器学习,基于数学统计的算法,同样可以,而且效果也不差。

异常检测之Skyline异常检测模块

2013年,Etsy 开源了一个内部的运维系统,叫 Kale。其中的 skyline 部分,就是做异常检测的模块, 它提供了 9 种异常检测算法 :

first_hour_average、

simple_stddev_from_moving_average、

stddev_from_moving_average、

mean_subtraction_cumulation、

least_squares

histogram_bins、

grubbs、

median_absolute_deviation、

Kolmogorov-Smirnov_test

简要的概括来说,这9种算法分为两类:

从正态分布入手:假设数据服从高斯分布,可以通过标准差来确定绝大多数数据点的区间;或者根据分布的直方图,落在过少直方里的数据就是异常;或者根据箱体图分析来避免造成长尾影响。

从样本校验入手:采用 Kolmogorov-Smirnov、Shapiro-Wilk、Lilliefor 等非参数校验方法。

这些都是统计学上的算法,而不是机器学习的事情。当然,Etsy 这个 Skyline 项目并不是异常检测的全部。

首先,这里只考虑了一个指标自己的状态,从纵向的时序角度做异常检测。而没有考虑业务的复杂性导致的横向异常。其次,提供了这么多种算法,到底一个指标在哪种算法下判断的更准?这又是一个很难判断的事情。

问题一: 实现上的抉择。同样的样本校验算法,可以用来对比一个指标的当前和历史情况,也可以用来对比多个指标里哪个跟别的指标不一样。

问题二: Skyline 其实自己采用了一种特别朴实和简单的办法来做补充——9 个算法每人一票,投票达到阈值就算数。至于这个阈值,一般算 6 或者 7 这样,即占到大多数即可。

异常检测之Opprentice系统

作为对比,面对相同的问题,百度 SRE 的智能运维是怎么处理的。在去年的 APMcon 上,百度工程师描述 Opprentice 系统的主要思想时,用了这么一张图:

Opprentice 系统的主体流程为:

KPI 数据经过各式 detector 计算得到每个点的诸多 feature;

通过专门的交互工具,由运维人员标记 KPI 数据的异常时间段;

采用随机森林算法做异常分类。

其中 detector 有14种异常检测算法,如下图:

我们可以看到其中很多算法在 Etsy 的 Skyline 里同样存在。不过,为避免给这么多算法调配参数,直接采用的办法是:每个参数的取值范围均等分一下——反正随机森林不要求什么特征工程。如,用 holt-winters 做为一类 detector。holt-winters 有α,β,γ 三个参数,取值范围都是 [0, 1]。那么它就采样为 (0.2, 0.4, 0.6, 0.8),也就是 4 ** 3 = 64 个可能。那么每个点就此得到  64  个特征值。

异常检测之

Opprentice 系统与 Skyline 很相似

Opprentice 系统整个流程跟 skyline 的思想相似之处在于先通过不同的统计学上的算法来尝试发现异常,然后通过一个多数同意的方式/算法来确定最终的判定结果。

只不过这里百度采用了一个随机森林的算法,来更靠谱一点的投票。而 Etsy 呢?在 skyline 开源几个月后,他们内部又实现了新版本,叫 Thyme。利用了小波分解、傅里叶变换、Mann-whitney 检测等等技术。

另外,社区在 Skyline 上同样做了后续更新,Earthgecko 利用 Tsfresh 模块来提取时序数据的特征值,以此做多时序之间的异常检测。我们可以看到,后续发展的两种 Skyline,依然都没有使用机器学习,而是进一步深度挖掘和调整时序相关的统计学算法。

开源社区除了 Etsy,还有诸多巨头也开源过各式其他的时序异常检测算法库,大多是在 2015 年开始的。列举如下:

Yahoo! 在去年开源的 egads 库。(Java)

Twitter 在去年开源的 anomalydetection 库。(R)

Netflix 在 2015 年开源的 Surus 库。(Pig,基于PCA)

其中 Twitter 这个库还被 port 到 Python 社区,有兴趣的读者也可以试试。

二、归因分析

归因分析是运维工作的下一大块内容,就是收到报警以后的排障。对于简单故障,应对方案一般也很简单,采用 service restart engineering~ 但是在大规模 IT 环境下,通常一个故障会触发或导致大面积的告警发生。如果能从大面积的告警中,找到最紧迫最要紧的那个,肯定能大大的缩短故障恢复时间(MTTR)。

这个故障定位的需求,通常被归类为根因分析(RCA,Root Cause Analysis)。当然,RCA 可不止故障定位一个用途,性能优化的过程通常也是 RCA 的一种。

归因分析之 Oculus 模块

和异常检测一样,做 RCA 同样是可以统计学和机器学习方法并行的~我们还是从统计学的角度开始。依然是 Etsy 的 kale 系统,其中除了做异常检测的 skyline 以外,还有另外一部分,叫 Oculus。而且在 Etsy 重构 kale 2.0 的时候,Oculus 被认为是1.0 最成功的部分,完整保留下来了。

Oculus 的思路,用一句话描述,就是:如果一个监控指标的时间趋势图走势,跟另一个监控指标的趋势图长得比较像,那它们很可能是被同一个根因影响的。那么,如果整体 IT 环境内的时间同步是可靠的,且监控指标的颗粒度比较细的情况下,我们就可能近似的推断:跟一个告警比较像的最早的那个监控指标,应该就是需要重点关注的根因了。

Oculus 截图如下:

这部分使用的 计算方式有两种:

欧式距离,就是不同时序数据,在相同时刻做对比。假如0分0秒,a和b相差1000,0分5秒,也相差1000,依次类推。

FastDTW,则加了一层偏移量,0分0秒的a和0分5秒的b相差1000,0分5秒的a和0分10秒的b也相差1000,依次类推。当然,算法在这个简单假设背后,是有很多降低计算复杂度的具体实现的,这里就不谈了。

唯一可惜的是 Etsy 当初实现 Oculus 是基于 ES 的 0.20 版本,后来该版本一直没有更新。现在停留在这么老版本的 ES 用户应该很少了。除了 Oculus,还有很多其他产品,采用不同的统计学原理,达到类似的效果。

归因分析之 Granger causality

Granger causality(格兰杰因果关系)是一种算法,简单来说它通过比较“已知上一时刻所有信息,这一时刻 X 的概率分布情况”和“已知上一时刻除 Y 以外的所有信息,这一时刻 X 的概率分布情况”,来判断 Y 对 X 是否存在因果关系。

可能有了解过一点机器学习信息的读者会很诧异了:不是说机器只能反应相关性,不能反应因果性的么?需要说明一下,这里的因果,是统计学意义上的因果,不是我们通常哲学意义上的因果。

统计学上的因果定义是:『在宇宙中所有其他事件的发生情况固定不变的条件下,如果一个事件 A 的发生与不发生对于另一个事件 B 的发生的概率有影响,并且这两个事件在时间上有先后顺序(A 前 B 后),那么我们便可以说 A 是 B 的原因。』

归因分析之皮尔逊系数

另一个常用的算法是皮尔逊系数。下图是某 ITOM 软件的实现:

我们可以看到,其主要元素和采用 FastDTW 算法的 Oculus 类似:correlation 表示相关性的评分、lead/lag 表示不同时序数据在时间轴上的偏移量。

皮尔逊系数在 R 语言里可以特别简单的做到。比如我们拿到同时间段的访问量和服务器 CPU 使用率:

然后运行如下命令:

acc_count<-scale(acc$acc_count,center=T,scale=T)

cpu<-scale(acc$cpuload5,center=T,scale=T)

cor.test(acc_count,cpu)

可以看到如下结果输出:

对应的可视化图形如下:

这就说明网站数据访问量和 CPU 存在弱相关,同时从散点图上看两者为非线性关系。因此访问量上升不一定会真正影响 CPU 消耗。

其实 R 语言不太适合嵌入到现有的运维系统中。那这时候使用 Elasticsearch 的工程师就有福了。ES 在大家常用的 metric aggregation、bucket aggregation、pipeline aggregation 之外,还提供了一种 matrix aggregation,目前唯一支持的 matrix_stats 就是采用了皮尔逊系数的计算,接口文档见:

https://www.elastic.co/guide/en/elasticsearch/reference/current/search-aggregations-matrix-stats-aggregation.html

唯一需要注意的就是,要求计算相关性的两个字段必须同时存在于一个 event 里。所以没法直接从现成的 ES 数据中请求不同的 date_histogram,然后计算,需要自己手动整理一遍,转储回 ES 再计算。

饶琛琳,目前就职日志易,有十年运维工作经验。在微博担任系统架构师期间,负责带领11人的SRE团队。著有《网站运维技术与实践》、《ELKstack权威指南》,合译有《Puppet 3 Cookbook》、《Learning Puppet 4》。在众多技术大会上分享过自动化运维与数据分析相关主题。

华为鸿蒙OS,HarmonyOS国产操作系统生态注入国产软件的强心剂

2021年5G网络安全标准化白皮书 详述5G网络安全和安全标准(全文)

2021年腾讯5G生态应用白皮书 5G商用现状与趋势(附PDF全文)

5G电源综合解决方案(PPT附全文下载)

5G智慧园区解决方案(PPT)

5G智慧高速解决方案(PPT)

5G+智慧教育解决方案(PPT)

5G+智慧能源行业解决方案

2020年5G新型智慧城市白皮书

智能烟感5G智慧消防综合解决方案(PPT附全文下载)

2020年5G新型智慧城市白皮书

基于5G的智慧物流数字化物流解决方案(PPT)

5G+AI工业视觉解决方案白皮书(PDF附全文下载)

5G智慧银行智慧营业区设计方案(附PPT全文)

石油石化行业 基于5G的智慧炼化厂整体解决方案(附PPT)

5G 视角下的供应链金融解决方案(附PPT下载)

5G+智慧工地解决方案完整版(PPT)

基于5G的数字仓储信息化解决方案(PPT)

5G+智慧公交解决方案(PPT附全文下载)

2021年中国5G产业全景图谱

5G+工业互联网解决方案(PPT附全文下载)

基于5G+AI智慧校园智慧食堂解决方案(附PPT下载)

2021年5G应用产业方阵创新中心指南(附PDF全文)

打造基于5G全连接智慧工厂物联网解决方案(PPT附全文下载)

工信部发布“5G+工业互联网”十个典型应用场景五个重点行业情况

5G智慧物联环卫平台 可溯源城市垃圾分类解决方案(附PPT下载)

2021年中国5G垂直行业应用案例(附PDF全文下载)

NB-IoT物联网5G智慧园区解决方案(附PPT全文下载)

2021年中国5G+AI典型案例研究报告(附PDF全文下载)

5G区块链工业4.0边缘计算 智能制造发展趋势路径 智能制造白皮书

德勤中兴发布:2021年5G+ICT趋势白皮书(附下载)

未来将至 5G+农业白皮书 智慧农业数字农业农村(附PDF全文)

5G+物联网数字农村、智慧农业大数据中心项目建设方案

5G+AIoT助力社区数字化转型 智慧未来社区智慧平台数字化建设方案

NB-IoT+5G物联网智慧建筑IBMS解决方案(附PPT)

2021年中国5G产业全景图谱报告 含图谱(附PDF全文下载)

2021年中国5G NB-IOT产业市场调研报告(附全文)

基于5G+AIOT技术的未来智慧社区智能化规划方案(附PPT全文下载)

2021年5G车联网需求与技术白皮书(附PDF全文下载)

数字孪生之场站BIM+GIS智能化运营(PPT附全文下载)

基于5G物联网SaaS AI农业大数据解决方案(PPT全文)

GIS支撑湖南智慧农业大数据平台解决方案(附PPT全文下载)

2021年GOPS 全球运维大会深圳站 数字化转型和数字化挖坑(附全文)

2020年GOPS全球运维大会 智能运维体系下的IT运营体系(PDF)

GOPS2021年 基于大规模运维数据的云原生软件多维度分析(附PDF)

2021年6G全球进展与发展展望白皮书(附PDF)

2020年GOPS全球运维大会 数字化转型下的IT管理体系(附PDF下载)

麦肯锡发布:引领“中国制造2025”的数字化转型(附PDF下载)

总95页详解企业信息化整体解决方案完整版(附PPT全文下载)

工业互联网智能制造2025 工业4.0与智能制造解决方案(附PDF全文)

中国制造2025 国家智能制造标准体系建设指南 智能工厂落地解决方案

什么是自动化运维?

自动化运维

1、自动化运维就是把周期性、重复性、规律性的工作都交给工具去做,具体来说有应用系统维护自动化,巡检自动化和故障处理自动化这三个方面。自动化运维依赖于具体的智能管理平台,最终达到提升运维效率的目的。目前有锐捷网络推出的RIIL Emotion自动化运维,能够自动解决用户在IT管理中的日常运维问题。

2、自动化运维是指将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。

扩展资料:

自动化运维能解决的问题

1、项目整体工作效率提升。

2、减少人为误操作,提升SLA。

3、方便信息传递,配置类信息聚合,信息链更完整。

4、事务留痕,方便跟踪,追述。

5、运维工作更加轻松、灵动。

6、提升运维工作价值,管理更多资源,更多服务对象。



萧田国:DevOps 时代,未来已来

如今,互联网的新浪潮云计算正席卷而来,“所有公司都会变成软件公司”这一趋势正在加速实现。如今,虽然互联网领先企业在软件研发效能方面已有诸多优秀实践。但对于互联网中小企业及广大传统企业来说,因缺少明确的方向和指引,变革步伐仍旧缓慢。如何将互联网一线名企的优秀实践分享给更多的企业,让更多的 IT 从业人员学习到落地实践经验,是我们不断摸索的动力。

本期节目的嘉宾是北京华佑 科技 有限公司的总经理萧田国先生,他是与互联网共同成长,沉浸行业十几年的知名 IT 专家,同时他也是业界 IT领袖,深受大家的喜爱。主持人对话北京华佑 科技 有限公司的总经理萧田国先生,共同探讨软件行业新风向。

萧田国,北京华佑 科技 有限公司总经理,DevOps 时代社区和高效运维社区发起人,DevOps 国际标准联合发起人,DAOPS 基金会中国区董事,开放运维联盟联合主席,GOPS 全球运维大会发起人,复旦大学特聘讲师。2004 年硕士毕业于北京 科技 大学,先后就职于联想集团、搜狐畅游、智明星通和触控 科技 等,十余年互联网运维及开发运维( DevOps)从业经验。

北京华佑 科技 有限公司(以下简称华佑 科技 ),成立于2015年,是一家提供 DevOps 和 RPA 等技术咨询服务以提升广大企业软件质量和研发效能的高新技术企业。华佑 科技 在中国信息通信研究院的牵头和指导下,协同组织互联网、金融和通信等行业名企,编写 DevOps 行业标准和国际标准,输出给广大企业,并较大程度地提高相关企业的软件质量和软件上线速度,提高企业的市场竞争力。华佑 科技 为广大企业提供高质量的技术咨询服务,帮助企业数字化转型。

华佑 科技 初期通过运营技术社区的形式,社区相关技术文章的阅读量达到千万级。同时社区也将 IT 技术从业人员聚拢在一起,多次举行线下千人技术峰会,为更多的软件行业从业者及企业提供了交流、学习和提升的平台和机会。四年间,凭借技术社区多年的耕耘和沉淀,华佑人 在 DevOps 等技术咨询领域打下夯实的基础,先后有工行、农行、中行、招商银行、浦发银行、腾讯、中信银行、PICC、华泰证券、中国移动和中国电信等名企,对于华佑 科技 的工作给予了充分的肯定。未来,华佑 科技 将目标定位为一家提供高端 IT 技术咨询及软件产品的企业,为传播新技术的火种,让企业数字化转型更高效而奋斗!

在采访中,萧老师提到:“正如吴军先生在《浪潮》一书提及的:无论是对于个人还是一间公司,赶上一波大浪潮无疑是最为幸运的。DevOps 是对于整个 IT 行业的浪潮。浪潮之下,我们能做的事更多,也更具有意义,我们致力于帮助更多企业实现 IT 的数字化转型。”从大厂运维总监到独立的创业人,从技术领袖到为企业数字化转型的领军者,萧老师具备着眼于未来的战略眼光及多年的IT一线实战经验,这些赋予更多企业敏捷化与智能化的无限可能。一路走来,萧老师的技术人生缤纷多彩,从一名传统运维工程师成长为 IT 变革带头人,从创立高效运维社区到举办享誉国内外的 IT 行业技术峰会,再到参与编写国际性的 IT 技术标准,萧老师带领着华佑 科技 一步一个脚印扎实成长,为中国 IT 行业发展与革新贡献着自己的力量!这份坚持与热爱让我们感动与钦佩!少年强则国强,希望有更多热爱 IT 事业的年轻人加入进来,为推动中国 IT 事业快速发展而相聚,为 科技 强国之路而共同奋斗! 关于it运维大会和的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 it运维大会的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于、it运维大会的信息别忘了在本站进行查找喔。
上一篇:包含itsm运维事件等级定义的词条
下一篇:性能测试资源利用率(软件测试资源利用率)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~