监控告警信息处理机制(监控预警机制)

来源网友投稿 835 2023-02-08

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈监控告警信息处理机制,以及监控预警机制对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享监控告警信息处理机制的知识,其中也会对监控预警机制进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

工厂监控报警管理制度

监控中心管理制度
各科室: 为保证监控中心设备与信息的安全, 保障监控中心有良好的运行环境和工作秩序, 特制定本制度.
1. 为确保监控机房安全, 根据岗位职责设立监控中心管理员, 负责对机房内各类设备, 软件系统进行维护和管理.
2. 中心管理员应认真履行各项监控机房管理职责, 定期按照规定对机房内各类设备进行检查和维护,及时发现,报告,解决硬件系统出现的故障,保障系统的正常运行.
3. 中心管理员应及时完成监控数据的刻录归档, 确保监控数据完整无误, 不得无故中 断监控,不得漏刻监控资料,未经刻录不得无故删除监控资料.监控工作结束后,相关设备 应及时关闭.
4. 中心管理员须做好防火,防静电,防潮,防尘,防热和防盗工作.中心禁止放置易 燃,易爆,腐蚀,强磁性物品,禁止在中心内使用其他用电设备,禁止将监控中心钥匙移交他人保管,确保中心安全.
5. 严格遵守保密制度,数据资料必须由中心管理员负责保管,未经允许,不得私自拷 贝,下载和外借;严禁任何人在监控计算机上使用未经检测允许的介质(软盘,光盘等) , 严禁在监控计算机上做与监控无关的事情.
6. 中心内应保持清洁,保证中心的安全和卫生;严禁在机房抽烟,喝水,吃东西,乱 扔杂物,大声喧哗等.
7. 实行工作人员值班制度. 值班人员应按规定做好实时监管工作, 并做好书面情况记 录,发现问题及时汇报并妥善处理.
8. 值班人员应严格执行监控中心管理制度, 并与中心管理员做好交接. 如需中心管理 员进行配合的,中心管理员应予以协助或陪同.
9. 除中心管理员和工作人员外,任何无关人员不得进入监控中心.
10. 中心管理员要经常督促检查本制度执行情况,做好情况记录,切实履行管理职责, 发现异常情况必须及时汇报.
监控中心值班制度
一、值班期间必须坚守岗位,集中精力,严格履行职责,认真做好监控工作,不得擅离职守或做与值班工作无关的事项。
二、日常值班实行中心人员轮流值班制,夜班两人,白班四人,遇法定节假日照常值班,值班表由综合科负责制定。
三、严禁在监控中心内吃饭。监控员由于吃饭或其它原因离开监控岗位可能超过三十分钟的,监控科领导必须安排他人代班。
四、监控员在无人代班的情况下离开监控中心超过十分钟的必须报监控管理员登记且离岗时间不得超过三十分钟。
五、严格监控工作纪律,无关人员不得进入监控中心。监控中心有外来人员进入时,必须及时电告监控科相关领导并简要说明事由。禁止在监控中心内喧哗、打闹。
六、值班人员必须正确使用系统设备,严格遵守操作规范,在操作权限内认真操作。
七、加强请示报告,对上级指示要雷厉风行、令行禁止。
八、进入监控中心必须随手关门,保持监控中心内整洁和室温稳定。
九、接班人员不得迟到,交班人员不得早退。
十、交接班要严肃认真,做到交接清楚,责任分明。
十一、交接双方要认真填写交接班登记表。交班人员应向接班人员交明工作情况,接班人员在认真核对上一班次的监控记录确认无误签字后,交班人员方可离去。遇有重大事件需要推迟交接班时,由交班人员继续处理情况,接班人员积极协助并尽快熟悉,接班人员在确认能独立处理情况后进行交接班。
十二、交接班过程中不得中断工作。
十三、交接班登记主要内容包括:
1、交接双方姓名;
2、交接班时间;
3、监控记录、异常处理情况;
4、系统运行情况;
5、各种安全工具、消防器材、开关钥匙及有关工具情况;
6、监控中心卫生维护情况;
7、其他。
监控中心监控员管理制度
一、当班期间必须着装整齐,按时上下班,认真填写监控值班记录。
二、值班期间必须坚守工作岗位,严格履行职责,认真处理各种监控工作,不得擅离职守,不做与工作无关的事情。
三、严格监控中心管理制度和工作纪律,无关人员不得擅入监控中心。禁止在监控中心内喧哗、打闹。经领导批准的人员进入监控中心参观时,要热情接待,主动介绍有关情况。
四、严格请示报告制度。遇到严重污染事故、重大突发性事件和职权范围内处理不了的事件应及时向领导报告。
五、当班人员应对国控重点污染源自动监控系统的运行情况进行实时查看,如遇污染物浓度超标等系统报警情况按三级报警工作流程进行处理。
六、系统运行不正常时应及时确定问题来源并进行相应处置,做好运行记录。
七、严禁把易燃易爆物品及与值班无关的个人物品带入监控中心。工作时要集中精力,不得打瞌睡、扯闲谈、吃零食,不得在监控中心吃饭等做与工作无关的事情。
八、进入监控中心必须随手关门,保持环境的整洁和室温稳定。
九、监控中心的任何设施未经领导批准不得随意拆卸和带出,保证系统运行安全和个人安全。
十、交接班前认真核对监控数据记录,认真打扫监控中心的卫生,并将当班期间污染源监控情况向接班监控员说明,按规定办理好交接班手续。
十一、监控员应按要求认真填写各种监控数据,保持数据的真实性、连续性、准确性、统一性、完备性。
十二、监控员不得擅自更改、虚假填报相关的监控数据,如出现实际数据与填报数据不符的情况,将追究当事人的责任,给予严肃处理。
十三、监控分中心必须建立完整的监控档案,定期将各种监控数据及各种工作记录、登记表进行整理、编号后归档。
十四、监控员不准私自做连班。
监控工作请示报告制度
一、如遇有下列情况应及时向上级领导报告:
(一)系统设备故障或损坏;
(二)重大污染事故或突发性事件;
二、职权范围内处理不了的问题,具体操作如下:
(一)监控平台方面的问题,致电请示监控科科长。
(二)监控数据方面的问题,致电询问数据分析科。
(三)系统设备故障方面的问题,告之运行维护科。
(五)重大污染事故或突发性事件,请示上级领导。
(六)监控业务方面的问题或其他职权范围内处理不了的问题,致电请示监控科领导。
三、监控员须定期向监控中心报告监控平台运行情况。
四、定期将各种监控数据、分析报告向有关科室、领导报告。
五、所有登记表应及时交至综合部进行存档保存。
六、及时反馈上级指示的执行情况。
监控中心安全管理制度
为强化安全责任意识,杜绝安全事故、数据泄密事故的发生,保证监控中心工作正常运转,特制定本制度。
一、加强安全设施建设,监控中心、监控室、配电间等设施要配齐并按时更新消防设备,防范火灾事故发生。
二、监控中心内严禁吸烟,严禁携带易燃、易爆、有毒等危险物品及与值班无关的个人物品进入监控中心。
三、监控中心晚上要及时落锁,有专人负责,严格防盗,严禁麻痹大意。
四、严禁在监控计算机上玩游戏,上网等做与工作无关的事情。
五、监控员必须严格遵守数据保密制度。
六、监控中心内的设施未经领导批准不得随意拆卸和带出,监控中心数据、资料未经领导批准不得向外人传阅。
七、定期检查消防设施,保证完好,工作人员必须熟悉消防器材的性能并能熟练操作。
八、办公电气设备在不使用时,特别是操作人员离开房间时,必须切断电源。
九、在清洁设备时,不得将水滴入地板、控制台及监控设备内,严禁湿手接触电源。部分设备有特别要求的,必须切断电源后再进行清洁。
监控管理制度
为保证公司监控信息系统的正常有序的运行,特制定本管理制度。
第一章 值班监看制度
一、厂区监控系统由中控室负责监控,由运行部负责监督检查中控 室的工作。
二、中控人员负责作好厂区监控范围内的工作,并作好当班的资料记录,发现异常情况必须及时向上级汇报。
三、严格按规定操作步骤进行操作,密切注意监控设备运行状况,保证监控设备安全有序,不得无故中断监控,删除监控资料。
四、监控用的计算机不得做与监控工作无关的事情。
五、认真学习监控的操作规程,维护和保养好监控设施。保持图像信息画面清晰,保证系统正常运行。
六、负责中控室的卫生清洁,保持室内干燥,设备、布线排列整齐。
七、严禁非中控人员进入中控室。
八、未经允许不得随意代班、调班。当班时不得擅自脱岗,严禁看报刊杂志,听收音机、打私人电话等与其工作无关的事情。
九、每天下午5点之前向运行部办公室汇报当天的监控情况。
第二章 图像信息保存、使用登记制度
一、厂内监控系统图像实行自动保存,有毒危险药品库房图像保存时间不少于30天,其他图像保存时间不少于3天。
二、外来单位人员需要查看监控图像需运行部主管批准,填写监控信息图像查看记录表,对图像信息的录制人员、调取时间、调取用途等事项进行登记。
三、任何人不得擅自复制、查询或者向公安机关以外的其他单位和个人提供、传播图像信息。
四、任何人不得擅自删除、修改监控系统的运行程序和记录。
五、任何人不得擅自改变公共安全图像信息系统的用途和摄像设备的位置。
六、任何人不得干扰、妨碍监控系统的正常运行。
第三章 安全保密制度
一、工作人员使用计算机要及时主动设置密码。
二、严禁将计算机密码告知无关人员。
三、未经相关领导批准,任何人员不得将公司的数据、软件及资料复制给其他单位或个人。
四、未经公司许可,公司以外任何人员不得使用操作监控计算机系统及相关设备。
五、任何人不得擅自提供、传播图像信息。
六、对涉及公司秘密、商业秘密和员工个人隐私的图像信息予以保密。
第四章 突发事件应急预案
一、厂内突发停电,或监控系统故障,监控系统不能正常工作,监控人员应立即上报运行部,运行部组织人员修理,排除故障,并安排员工加强厂内安全巡检。
二、中控值班人员发现报警应立即上报运行部主管人员,并安排班组人员去报警现场检察情况,弄清报警原因。现场检察人员将现场情况报告中控值班人员,中控值班人员视情况采取相应措施,如火灾采取《火灾突发应急预案》,人员溺水采取《溺水应急预案》。
三、如发现外人强制入侵报警(翻越厂区围墙),中控值班人员应立即上报运行部主管人员,并组织班组人员到现场阻止入侵,问询入侵原因,做相关记录,视情节严重程度决定是否通知公安机关。
第五章 工作人员岗前培训、人机演练制度
一、新入职员工按照公司培训制度进行岗前培训,其中包括监控系统的理论和实际操作培训。
二、新入职员工在接受相关培训后,需进行考核,包括理论和实际操作的考核,其考核成绩作为入职的参考。
三、公司按照相关制度不定期进行突发事件的演习,其中包括监测系统突发情况的操作演练;员工对突发事件的处理熟练程度将被记录,作为职务晋升的参考。
第六章 系统运行安全保障制度
一、工作人员要定期对自己的计算机进行病毒检测,发现病毒应及时清除;清除不了的,要立即报告运行部。不得使用来历不明的软盘或光盘,严禁故意制作、传播计算机病毒。
二、 运行部安排维修班组定期检察监测系统线路和设备,超出服务 期限的设备要及时更换。
三、严禁携带易燃、易爆、有毒的物品进入中控室。
四、严禁带零食进入中控室,室内严禁烟火,水杯应放置在远离电器设备的地方。
以上是三份资料,您可以参考一下!

IT运维如何处理大量告警

一、在运维的过程中,需要记住一个原则:如果报警发给了 一个不能短期内解决问题 的人。 那么应该反思这个报警是否有合理的必要。

二、告警信息,需要定制分发,制定告警策略,重点需要关注以下几个方面原则。

哪些业务需要告警?

哪种故障需要告警?

告警等级如何划分?

故障依赖关系如何定义?

告警信息如何汇集?

如何做到精准有效的告警?

最终的目的就是少收告警信息,自动处理故障,自动恢复服务,当然,这是一条漫长的路。

如果不解决以上问题,将会被告警信息所淹没,最终如题主所言,影响运维工作。

对于监控的告警信息,处理的好,将会提高我们的故障响应速度,处理的不好,会影响我们的工作情绪,适得其反。试想,当一天收到1000封告警信息,是否还会去逐一查看监控告警信息?是否还能分辨是否重大故障,还是一般故障?

对于误报,漏报,会让人对信息的警觉性放松,时间久了,还会导致对接收监控信息有反感。所以,对于监控告警信息的发送,是一件特别慎重的事情。总结一下,对于监控告警信息,我们有以下的需求:

1.基于业务类型,将告警信息发送给相应的业务用户,例如IDC人员,WEB运维,CDN运维,网络运维,不同的人员管理不同的设备,因此需要把故障发送给相关用户处理。

2.基于故障级别,对一个故障,将不同的故障级别发送给不同用户,例如5分钟内的故障发送给运维一线人员,10分钟发送给运维部门主管,30分钟发送给运维部门经理。重特大故障发送部门相关领导。

3.基于时间发送,比如业务维护期,告警无需发送。

4.故障的相关依赖关系,当A服务发生故障时,发送一般告警,当A,B服务故障时候,发送业务故障告警。

5.对出现故障的服务尝试用相关命令或者脚本进进行操作处理,尝试自动恢复,例如重启服务,重启服务器等。

RIIL 区别于一般的软件厂商,通过软件+服务+咨询+培训一站式交付模式,致力于提供匹配客户需求的解决方案,让客户能够真正把产品用起来,实实在在感受产品带来的价值

RIIL 区别于一般的软件厂商,依托锐捷强大平台,拥有遍布全国的销售、售前支持及售后保障网络,为客户提供便捷有力的本地化原厂服务

RIIL 在软件产品方面具备面向管理者、基于业务、可视化管理的特征,其中IT健康指数、业务雷达等创新管理功能拥有国家专利保护

RIIL 在全国具备大量的成功案例,南北车集团、中石油、清华大学、华南师范大学以及政府一半以上部委等等500多个优质行业客户都是RIIL的忠实用户

如何才能做到对告警通知有效管理?

其实在一线运维工作中,常常是福不双至,故障不单行。每有运维问题发生监控告警信息处理机制的时候,往往会密集发生多个告警。当这些告警来袭的时候,一线运维人员要针对它的类型、等级、告警对象和内容等进行检查并选用合适的方法来应对。

告警等级较高时,比如持续出错的应用告警,在查验后会立即分派通知相关的负责人在第一时间开具事件工单,做对应的流程追踪;而遇到低等级或次要的系统告警,则可以暂缓处置,留作观察。

传统的处置方式需要用经验来判断问题的影响范围和严重性,再通过人工进行派单以及通知下游处理人员,这样效率低下,无法满足现今业务响应速度的要求监控告警信息处理机制了。

究其原因,有些周期性发生的高频问题,往往并不是最棘手的,是可以延后处置的。反而偶发的问题,比较需要特别关注(如果这是原始定级较高的故障,更应该第一时间关注)。

所以,在告警发生的时候,可以使用告警优先级推荐算法来分析处理问题。根据规律特征进行判别,看是否需要立即关注。再配合自动化工具,将推荐等级与原始等级都高的告警加上筛选规则,进行自动化开单处置。发现推荐等级与原始等级有背离的部分,可以筛选出来做复盘,对告警原始的等级进行优化,或者转化成升降级的规则逻辑来处置告警等级。

如何做好运维监控?

统一监控平台,说到底本质上也是一个监控系统,监控的基本能力是必不可少的,回归到监控的本质,先梳理下整个监控体系:

① 监控系统的本质是通过发现故障、解决故障、预防故障来为了保障业务的稳定。

② 监控体系一般来说包括数据采集、数据检测、告警管理、故障管理、视图管理和监控管理6大模块。而数据采集、数据检测和告警处理是监控的最小闭环,但如果想要真正把监控系统做好,那故障管理闭环、视图管理、监控管理的模块也缺一不可。

一、数据采集

1、采集方式

数据采集方式一般分为Agent模式和非Agent模式;

Agent模式包括插件采集、脚本采集、日志采集、进程采集、APM探针等

非Agent模式包括通用协议采集、Web拨测、API接口等

2、数据类型


监控的数据类型有指标、日志、跟踪数据三种类型。

指标数据是数值型的监控项,主要是通过维度来做标识。

日志数据是字符型的数据,主要是从中找一些关键字信息来做监控。

跟踪型数据反馈的是跟踪链路一个数据流转的过程,观察过程中的耗时性能是否正常。

3、采集频率

采集频率分秒级、分钟级、随机三种类型。常用的采集频率为分钟级。

4、采集传输

采集传输可按传输发起分类,也可按传输链路分类。

按传输发起分类有主动采集Pull(拉)、被动接收Push(推)

按传输链路分类有直连模式、Proxy传输。

其中Proxy传输不仅能解决监控数据跨网传输的问题,还可以缓解监控节点数量过多导致出现的数据传输的瓶颈,用Proxy实现数据分流。

5、数据存储

对于监控系统来说,主要有以下三种存储供选择

① 关系型数据库

例如MySQL、MSSQL、DB2;典型监控系统代表:Zabbix、SCOM、Tivoli;

由于数据库本身的限制,很难搞定海量监控的场景,有性能瓶颈,只在传统监控系统常用

② 时序数据库

为监控这种场景设计的数据库,擅长于指标数据存储和计算;例如InfluxDB、OpenTSDB(基于Hbase)、Prometheus等;典型监控系统代表:TICK监控框架、 Open-falcon、Prometheus

③ 全文检索数据库

这类型数据库主要用于日志型存储,对数据检索非常友好,例如Elasticsearch。

二、数据检测

1. 数据加工

① 数据清洗

数据清洗比如日志数据的清洗,因为日志数据是非结构化的数据,信息密度较低,因此需要从中提取有用的数据。

② 数据计算

很多原始性能数据不能直接用来判断数据是否产生异常。比如采集的数据是磁盘总量和磁盘使用量,如果要检测磁盘使用率,就需要对现有指标进行一个简单的四则运算,才能得到磁盘使用率。

③ 数据丰富

数据丰富就是给数据打上一些tags标签,比如打上主机、机房的标签,方便进行聚合计算。

④ 指标派生

指标派生指的是通过已有的指标,通过计算得出新的指标。

2. 检测算法

有固定规则和机器学习算法。固定算法是较为常见的算法,静态阈值、同比环比、自定义规则,而机器学习主要有动态基线、毛刺检测、指标预测、多指标关联检测等算法。

无论是固定规则还是机器学习,都会有相应的判断规则,即常见的< =和and/or的组合判断等。

三、告警管理

1. 告警丰富

告警丰富是为了后续告警事件分析做准备,需要辅助信息去判断该怎么处理、分析和通知。

告警丰富一般是通过规则,联动CMDB、知识库、作业历史记录等数据源,实现告警字段、关联信息的丰富;通过人工打Tags也是一种丰富方式,不过实际场景下由于人工成本高导致难以落地。

2. 告警收敛

告警收敛有三种思路:抑制、屏蔽和聚合

① 抑制

即抑制同样的问题,避免重复告警。常见的抑制方案有防抖抑制、依赖抑制、时间抑制、组合条件抑制、高可用抑制等。

② 屏蔽

屏蔽可预知的情况,比如变更维护期、固定的周期任务这些已经知道会发生的事件,心里已经有预期。

③ 聚合

聚合是把类似或相同的告警进行合并,因为可能反馈的是同一个现象。比如业务访问量升高,那承载业务的主机的CPU、内存、磁盘IO、网络IO等各项性能都会飙升,这样把这些性能指标都聚合到一块,更加便于告警的分析处理。

3. 告警通知

① 通知到人

通过一些常规的通知渠道,能够触达到人。

这样在没有人盯屏的时候,可以通过微信、短信、邮件触发到工作人员。

② 通知到系统

一般通过API推送给第三方系统,便于进行后续的事件处理

另外还需要支持自定义渠道扩展(比如企业里有自己的IM系统,可以自行接入)

四、故障管理

告警事件必须要处理有闭环,否则监控是没有意义的。

最常见还是人工处理:值班、工单、故障升级等。

经验积累可以把人工处理的故障积累到知识库里面,用于后续故障处理的参考。

自动处理,通过提取一些特定告警的固化的处理流程,实现特定场景的故障自愈;比如磁盘空间告警时把一些无用日志清掉。

智能分析主要是通过故障的关联分析、定位、预测等AI算法,进一步提升故障定位和处理的效率;

1. 视图管理

视图管理也属于增值性功能,主要是满足人的心理述求,做到心中有底,面向的角色很多(领导、管理员、值班员等)。

大屏:面向领导,提供全局概览

拓扑:面向运维人员,提供告警关联关系和影响面视图

仪表盘:面向运维人员,提供自定义的关注指标的视图

报表:面向运维人员、领导,提供一些统计汇总报表信息,例如周报、日报等

检索:面向运维人员,用于故障分析场景下的各类数据检索

2. 监控管理

监控管理是企业监控落地过程中的最大挑战。前5个模块都是监控系统对外提供的服务功能,而监控管理才是面向监控系统自身的管理和控制,关注真正落地的过程的功能呈现。主要有以下几个方面:

配置:简单、批量、自动

覆盖率:监控水平的衡量指标

指标库:监控指标的规范

移动端:随时随地处理问题

权限:使用控制

审计:管理合规

API:运维数据最大的来源,用于数据消费

自监控:自身稳定的保障

为了实现上述监控六大基础能力模块,我们可以按如下架构设计我们的统一监控平台。

主要分三层,接入层,能力层,功能层。

接入层主要考虑各种数据的接入,除了本身Agent和插件的采集接入,还需要支持第三方监控源的数据接入,才能算一个完整的统一监控平台。

能力层主要考虑监控的基础通用能力,包含数据采集模块、数据存储模块、数据加工模块、数据检测模块、AI分析模块。

功能层需要贴近用户使用场景,主要有管理、展示两类功能,在建设的过程中可以不断丰富功能场景。

另外,考虑到数据的关联关系,为未来的数据分析打下基础,监控和CMDB也需要紧密联动,所有的监控对象都应该用CMDB进行管理,另外,还可以配置驱动监控为指导理念,实现监控的自动上下线,告警通知自动识别负责人等场景,简化监控的维护管理。

为了统一监控平台能够在企业更好的落地,我们需要配备对应的管理体系,其中最重要的是指标管理体系。

指标管理体系的核心理念:

监控的指标体系是以CMDB为骨架,以监控指标为经脉,将整个统一监控平台的数据有机整合起来。

贯穿指标的生命周期管理,辅以指标的管理规范,保障监控平台长久有序的运行。

从企业业务应用的视角出发,一般将企业监控的对象分为6层,也可以根据企业自己的情况进行调整:

基础设施层

硬件设备层

操作系统层

组件服务层

应用性能层

业务运营层

关于监控告警信息处理机制和监控预警机制的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 监控告警信息处理机制的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于监控预警机制、监控告警信息处理机制的信息别忘了在本站进行查找喔。
上一篇:zabbix对外推送告警(zabbix误报)
下一篇:关于银行it运维工程师的信息
相关文章

 发表评论

暂时没有评论,来抢沙发吧~