海天AIOPS之路系列之四:Ankole定制化数据采集

网友投稿 1034 2022-10-12

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。

海天AIOPS之路系列之四:Ankole定制化数据采集

1. 目标

运维平台的开发属于DevOps范畴,在数据库运维的过程中会碰到各种各样的问题,有些问题以前数据库运维平台完全没有考虑到,当碰到这些问题后,就需要数据库运维平台有很好的扩展,将新碰到的问题纳入监控、维护。

Ankole运维平台在这方面有强大的扩展功能,当发现新的问题时,可以在数据采集框架内很方便地增加采集内容,扩展运维平台监控、维护内容,增加运维平台的功能。

数据采集是运维平台的基础模块,大部分运维平台的数据采集(比如Oracle Enterprise Manager)是通过在生产服务器上安装代理软件来实现,这其实有利有弊。通过代理软件,当发生问题时,可能通过代理软件快速地将故障数据推送到资料库,弊端是代理软件侵入了服务器,生产服务器的维护人员各种各样,可能后续的维护人员对生产服务器完全不熟悉,完全不知道代理软件的存在,有些操作在不知情的情况就会产生问题。比如,代理软件使用了数据库软件的库文件,在不知情的情况下升级数据库软件,在未关闭代理软件的情况下,就有可能造成数据库的升级失败,这种情况在Oracle Enterprise Manager管理的情况下非常普遍。

而ankole数据库运维平台的数据采集模块,完全不需要代理软件,所以对生产服务器无任何侵入。ankole数据库运维平台在监控、维护数百套数据库时,数据库发生严重故障(比如数据库不可用时),基本可以在20秒内发出短信告警,ankole数据库运维平台是如何实现的呢?

2. 设计思路

Ankole数据库运维平台有着强大的数据采集框架,对于采集的内容按重要层度进行按频率梯度划分。对重要的采集内容(比如数据库实时状态)等,采集频率非常高,而对于空间使用率内容,采集频率设置在10分钟级,而对于参数等变化比较小的内容,采集频率为小时级。

数据采集框架按照采集内容进行模块化调度,彼此互不影响,使用多线程方式进行数据采集,整个数据采集框架设计如下:

正是由于数据采集模块的实时采集基础,才可以做到当监控目标发生严重故障时,快速发出告警短信。

3. 定制化扩展

在上面说到数据采集框架是进行模块化调度采集,所以如果发生新的问题、有新的数据采集需求,只要在调度框架内开发新的采集模块即可完成数据采集,有开发经验的运维人员只需要稍加学习数据采集框架,就可以开发出符合自已要求的采集模块。

往 期 推 荐海天AIOPS之路系列之一:Ankole数据库运维平台介绍海天AIOPS之路系列之二:Ankole监控告警海天AIOPS之路系列之三:Ankole自动化故障单

欢迎咨询海天起点技术专家

免费热线:800-810-3650   400-810-3650

喜欢本文请长按下方的二维码订阅海天起点

上一篇:Kubernetes 常用组件-Dashboard
下一篇:一招教你怎么使用mac 安装配置 homebrew(代码分享)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~