告警信息持续跟踪分析(告警信息处理)

来源网友投稿 576 2023-03-23

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈告警信息持续跟踪分析,以及告警信息处理对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享告警信息持续跟踪分析的知识,其中也会对告警信息处理进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

什么是舆情系统?有推荐的舆情系统吗?

舆情系统需要综合运用搜索引擎技术、文本处理技术、知识管理方法、自然语言处理、手机短信平台,通过对互联网海量信息自动获取、提取、分类、聚类、主题监测、专题聚焦,以满足用户对网络舆情监测和热点事件专题追踪等需求。
舆情系统集成了舆情监测、舆情采集、舆情智能分析、舆情处理、舆情预警、舆情搜索、舆情报告辅助生成、舆情短信自动提醒等核心功能。帮助客户全面掌握舆情动态,正确进行舆论引导。为确保我国互联网络大众媒体的舆论导向的正确性起到一定的辅助作用,实现为政府分忧,对网络舆情进行监控和管理。用舆情系统,宣传部门可以有效的规范互联网信息,引导健康有益的舆论导向。系统对于促进加强互联网信息监管,组织力量展开信息整理和深入分析,应对网络突发的公共事件,全面掌握社情民意起决定性作用。
系统组成:
1、自然语言分析
按关键词分类的自然语言分析涵盖了不同类别的品牌名称以及类别属性,包括所有的品牌名称、网络语言以及其他一些相关的条目。这意味着您无需自行识别以及设计您自己的关键词。
2、海量数据采集
采集相关类别的所有数据,不仅仅是某些关键词。这意味着您可以全面分析众多类别的趋势而不限于与您品牌相关的。
高质量的数据
来自主流来源的合格数据经过质量担保,确保采集“高质量”的数据(而不是垃圾数据)。
3、深层次分析工具
精细的、自主研发的以调研为基础的“多维度切割”分析工具 允许您每月对成千上百的品牌、产品以及两个层级的属性的网络讨论量进行比较。
4、文本挖掘
由CIC开发的独特的中文语义分析技术使得文本挖掘的准确性大大提高。该技术融合句式分析、情感分析和分类分析的优势,通过参考时间,来源和作者等指标支持品牌、产品及其属性的分析。相对于单一关键词查询,IWOMmaster的自动化语义识别技术为您提供了基于中文语法特点的多角度语义分析提供坚实基础。

oracle数据库的警告日志如何查看

‍测试环境中出现了一个异常的告警现象:一条告警通过 Thanos Ruler 的 HTTP 接口观察到持续处于 active 状态,但是从 AlertManager 这边看这条告警为已解决状态。按照 DMP 平台的设计,告警已解决指的是告警上设置的结束时间已经过了当前时间。一条发送至 AlertManager 的告警为已解决状态有三种可能:1. 手动解决了告警2. 告警只产生了一次,第二次计算告警规则时会发送一个已解决的告警3. AlertManager 接收到的告警会带着一个自动解决时间,如果还没到达自动解决时间,则将该时间重置为 24h 后首先,因为了解到测试环境没有手动解决过异常告警,排除第一条;其次,由于该告警持续处于 active 状态,所以不会是因为告警只产生了一次而接收到已解决状态的告警,排除第二条;最后,告警的告警的产生时间与自动解决时间相差不是 24h,排除第三条。那问题出在什么地方呢?

分析

下面我们开始分析这个问题。综合第一节的描述,初步的猜想是告警在到达 AlertManager 前的某些阶段的处理过程太长,导致告警到达 AlertManager 后就已经过了自动解决时间。我们从分析平台里一条告警的流转过程入手,找出告警在哪个处理阶段耗时过长。首先,一条告警的产生需要两方面的配合:

metric 数据

告警规则

将 metric 数据输入到告警规则进行计算,如果符合条件则产生告警。DMP 平台集成了 Thanos 的相关组件,数据的提供和计算则会分开,数据还是由 Prometheus Server 提供,而告警规则的计算则交由 Thanos Rule(下文简称 Ruler)处理。下图是 Ruler 组件在集群中所处的位置:

看来,想要弄清楚现告警的产生到 AlertManager 之间的过程,需要先弄清除 Ruler 的大致机制。官方文档对 Ruler 的介绍是:You can think of Rule as a simplified Prometheus that does not require a sidecar and does not scrape and do PromQL evaluation (no QueryAPI)。

不难推测,Ruler 应该是在 Prometheus 上封装了一层,并提供一些额外的功能。通过翻阅资料大致了解,Ruler 使用 Prometheus 提供的库计算告警规则,并提供一些额外的功能。下面是 Ruler 中告警流转过程:

请点击输入图片描述

请点击输入图片描述

首先,图中每个告警规则 Rule 都有一个 active queue(下面简称本地队列),用来保存一个告警规则下的活跃告警。

其次,从本地队列中取出告警,发送至 AlertManager 前,会被放入 Thanos Rule Queue(下面简称缓冲队列),该缓冲队列有两个属性:

capacity(默认值为 10000):控制缓冲队列的大小,

maxBatchSize(默认值为 100):控制单次发送到 AlertManager 的最大告警数

了解了上述过程,再通过翻阅 Ruler 源码发现,一条告警在放入缓冲队列前,会为其设置一个默认的自动解决时间(当前时间 + 3m),这里是影响告警自动解决的开始时间,在这以后,有两个阶段可能影响告警的处理:1. 缓冲队列阶段2. 出缓冲队列到 AlertManager 阶段(网络延迟影响)由于测试环境是局域网环境,并且也没在环境上发现网络相关的问题,我们初步排除第二个阶段的影响,下面我们将注意力放在缓冲队列上。通过相关源码发现,告警在缓冲队列中的处理过程大致如下:如果本地队列中存在一条告警,其上次发送之间距离现在超过了 1m(默认值,可修改),则将该告警放入缓冲队列,并从缓冲队列中推送最多 maxBatchSize 个告警发送至 AlertManager。反之,如果所有本地队列中的告警,在最近 1m 内都有发送过,那么就不会推送缓冲队列中的告警。也就是说,如果在一段时间内,产生了大量重复的告警,缓冲队列的推送频率会下降。队列的生产方太多,消费方太少,该队列中的告警就会产生堆积的现象。因此我们不难猜测,问题原因很可能是是缓冲队列推送频率变低的情况下,单次推送的告警数量太少,导致缓冲队列堆积。下面我们通过两个方面验证上述猜想:首先通过日志可以得到队列在大约 20000s 内推送了大约 2000 次,即平均 10s 推送一次。结合缓冲队列的具体属性,一条存在于队列中的告警大约需要 (capacity/maxBatchSize)*10s = 16m,AlertManager 在接收到告警后早已超过了默认的自动解决时间(3m)。其次,Ruler 提供了 3 个 metric 的值来监控缓冲队列的运行情况:

thanos_alert_queue_alerts_dropped_total

thanos_alert_queue_alerts_pushed_total

thanos_alert_queue_alerts_popped_total

通过观察 thanos_alert_queue_alerts_dropped_total 的值,看到存在告警丢失的总数,也能佐证了缓冲队列在某些时刻存在已满的情况。

解决通过以上的分析,我们基本确定了问题的根源:Ruler 组件内置的缓冲队列堆积造成了告警发送的延迟。针对这个问题,我们选择调整队列的 maxBatchSize 值。下面介绍一下这个值如何设置的思路。由于每计算一次告警规则就会尝试推送一次缓冲队列,我们通过估计一个告警数量的最大值,得到 maxBatchSize 可以设置的最小值。假设你的业务系统需要监控的实体数量分别为 x1、x2、x3、...、xn,实体上的告警规则数量分别有 y1、y2、y3、...、yn,那么一次能产生的告警数量最多是(x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn),最多推送(y1 + y2 + y3 + ... + yn)次,所以要使缓冲队列不堆积,maxBatchSize 应该满足:maxBatchSize = (x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn) / (y1 + y2 + y3 + ... + yn),假设 x = max(x1,x2, ...,xn), 将不等式右边适当放大后为 x,即 maxBatchSize 的最小值为 x。也就是说,可以将 maxBatchSize 设置为系统中数量最大的那一类监控实体,对于 DMP 平台,一般来说是 MySQL 实例。

注意事项

上面的计算过程只是提供一个参考思路,如果最终计算出该值过大,很有可能对 AlertManager 造成压力,因而失去缓冲队列的作用,所以还是需要结合实际情况,具体分析。因为 DMP 将 Ruler 集成到了自己的组件中,所以可以比较方便地对这个值进行修改。如果是依照官方文档的介绍使用的 Ruler 组件,那么需要对源码文件进行定制化修改。


‍‍

办公自动化网络安全

摘要:随着计算机网络技术的普及,利用联网实现办公自动化,并将办公自动化应用到政府、军队等安全性要求较高的机构已成为一种迫切的需要.所谓办公自动化是指运用微机及相关外设,有效地管理和传输各种信息,达到提高工作效率的目的。办公自动化网络是一个中小型的局部网络.办公自动化网络系统是自动化无纸办公系统的重要组成部分。在实现联网办公时,由于覆盖面大,使用人员混杂,管理水平各异,往往不能保证公文在网络上安全传输和管理。还有一些人专门在网络上从事信息破坏活动,给国家、企业造成巨大的损失.因此,加强网络安全,防止信息被泄露、修改和非法窃取成为当前网络办公自动化普及与应用迫切需要解决的问题。本文总结了办公自动化网络常见的安全问题及其后果,探讨了解决这些安全问题的方法,提供了基于网络内部的安全策略。
1、前言
企业内部办公自动化网络一般是基于TcrilP协议并采用了Internet的通信标准和Web信息流通模式的Intra-net,它具有开放性,因而使用极其方便。但开放性却带来了系统人侵、病毒人侵等安全性问题。一旦安全问题得不到很好地解决,就可能出现商业秘密泄漏、设备损坏、数据丢失、系统瘫痪等严重后果,给正常的企业经营活动造成极大的负面影响。因此企业需要一个更安全的办公自动化网络系统。
办公自动化系统的安全包括网络设备、配套设备的安全、数据的安全、通讯的安全、运行环境的安全,还包括网络内部每台计算机的安全、计算机功能的正常发挥等部分。办公自动化网络安全问题的解决主要应从预警、防护、灾难恢复等三方面人手,下面就安全预警、数据安全防护、人侵防范、病毒防治以及数据恢复等方面分别探讨。
2、办公自动化网络常见的安全问题
(1)网络病毒的传播与感染
随着计算机和网络的进步和普及,计算机病毒也不断出现,总数已经超过20000种,并以每月300种的速度增加,其破环性也不断增加,而网络病毒破坏性就更强。一旦文件服务器的硬盘被病毒感染,就可能造成系统损坏、数据丢失,使网络服务器无法起动,应用程序和数据无法正确使用,甚至导致整个网络瘫痪,造成不可估量的损失。网络病毒普遍具有较强的再生机制,可以通过网络扩散与传染。一旦某个公用程序染了毒,那么病毒将很快在整个网络上传播,感染其它的程序。由网络病毒造成网络瘫痪的损失是难以估计的。一旦网络服务器被感染,其解毒所需的时间将是单机的几十倍以上。
(2)黑客网络技术的入侵
目前的办公自动化网络基本上都采用以广播为技术基础的以太网。在同一以太网中,任何两个节点之间的通信数据包,不仅可以为这两个节点的网卡所接收,也同时能够为处在同一以太网上的任何一个节点的网卡所截取。另外,为了工作方便,办公自动化网络都备有与
外网和国际互联网相互连接的出人口,因此,外网及国际互联网中的黑客只要侵人办公自动化网络中的任意节点进行侦听,就可以捕获发生在这个以太网上的所有数据包,对其进行解包分析,从而窃取关键信息;而本网络中的黑客则有可能非常方便的截取任何数据包,从而造成信息的失窃。
(3)系统数据的破坏
在办公自动化网络系统中,有多种因素可能导致数据的破坏。首先是黑客侵人,黑客基于各种原因侵人网络,其中恶意侵人对网络的危害可能是多方面的。其中一种危害就是破坏数据,可能破坏服务器硬盘引导区数据、删除或覆盖原始数据库、破坏应用程序数据等。其次是病毒破坏,病毒可能攻击系统数据区,包括硬盘主引导扇区、Boot扇区、FAT表、文件目录等;病毒还可能攻击文件数据区,使文件数据被删除、改名、替换、丢失部分程序代码、丢失数据文件;病毒还可能攻击CMOS,破坏系统CMOS中的数据。第三是灾难破坏,由于自然灾害、突然停电、强烈震动、误操作等造成数据破坏。重要数据遭到破坏和丢失,会造成企业经营困难、人力、物力、财力的巨大浪费。
3、网络安全策略
(1)网络安全预警
办公自动化网络安全预誓系统分为人侵预警和病毒预警两部分。人侵预警系统中,人侵检测可以分析确定网络中传输的数据包是否经过授权。一旦检测到人侵信息,将发出警告,从而减少对网络的威胁。它把包括网络扫描、互联网扫描、系统扫描、实时监控和第三方的防火墙产生的重要安全数据综合起来,提供内部和外部的分析并在实际网络中发现风险源和直接响应。它提供企业安全风险管理报告,报告集中于重要的风险管理范围,如实时风险、攻击条件、安全漏洞和攻击分析;提供详细的人侵告警报告,显示人侵告警信息(如人侵IP地址及目的IP地址、目的端口、攻击特征),并跟踪分析人侵趋势,以确定网络的安全状态;信息可以发往相关数据库,作为有关网络安全的决策依据。病毒预警系统通过对所有进出网络的数据包实施不间断的持续扫描,保持全天24小时监控所有进出网络的文件,发现病毒时可立即产生报警信息,通知管理员,并可以通过IP地址定位、端口定位追踪病毒来源,并产生功能强大的扫描日志与报告,记录规定时间内追踪网络所有病毒的活动。
(2)数据安全保护
①针对入侵的安全保护:对于数据库来说,其物理完整性、逻辑完整性、数据元素完整性都是十分重要的。数据库中的数据有纯粹信息数据和功能文件数据两大类,人侵保护应主要考虑以下几条原则:物理设备和安全防护,包括服务器、有线、无线通信线路的安全防护;服务器安全保护,不同类型、不同重要程度的数据应尽可能在不同的服务器上实现,重要数据采用分布式管理,服务器应有合理的访问控制和身份认证措施保护,并记录访问日志。系统中的重要数据在数据库中应有加密和验证措施。用户对数据的存取应有明确的授权策略,保证用户只能打开自己权限范围之内的文件;通过审计和留痕技术避免非法者从系统外取得系统数据或是合法用户为逃避系统预警报告的监督而从系统中取得数据;客户端安全保护,客户端的安全主要是要求能配合服务器的安全措施,提供身份认证、加密、解密、数字签名和信息完整性验证功能,并通过软件强制实现各客户机口令的定期更换,以防止口令泄漏可能带来的损失。
②针对病毒破坏及灾难破坏的安全保护:对于病毒和灾难破坏的数据保护来说,最为有效的保护方式有两大类:物理保护和数据备份。要防止病毒和灾难破坏数据,首先要在网络核心设备上设置物理保护措施,包括设置电源冗余模块和交换端口的冗余备份;其次是采用磁盘镜像或磁盘阵列存储数据,避免由于磁盘物理故障造成数据丢失;另外,还要使用其他物理媒体对重要的数据进行备份,包括实时数据备份和定期数据备份,以便数据丢失后及时有效地恢复。
(3)人侵防范
要有效地防范非法入侵,应做到内外网隔离、访问控制、内部网络隔离和分段管理。
①内外网隔离:在内部办公自动化网络和外网之间,设置物理隔离,以实现内外网的隔离是保护办公自动化网络安全的最主要、同时也是最有效、最经济的措施之一。第一层隔离防护措施是路由器。路由器滤掉被屏蔽的IP地址和服务。可以首先屏蔽所有的IP地址,然后有选择的放行一些地址进人办公自动化网络。
第二层隔离防护措施是防火墙。大多数防火墙都有认证机制,无论何种类型防火墙,从总体上看,都应具有以下五大基本功能:过滤进、出网络的数据;管理进、出网络的访问行为;封堵某些禁止的业务;记录通过防火墙的信息内容和活动;对网络攻击的检测和告警。
②访问控制:公自动化网络应采用访问控制的安全措施,将整个网络结构分为三部分,内部网络、隔离区以及外网。每个部分设置不同的访问控制方式。其中:内部网络是不对外开放的区域,它不对外提供任何服务,所以外部用户检测不到它的IP地址,也难以对它进行攻击。隔离区对外提供服务,系统开放的信息都放在该区,由于它的开放性,就使它成为黑客们攻击的对象,但由于它与内部网是隔离开的,所以即使受到了攻击也不会危及内部网,这样双重保护了内部网络的资源不受侵害,也方便管理员监视和诊断网络故障。
③内部网络的隔离及分段管理:内部网络分段是保证安全的一项重要措施,同时也是一项基本措施,其指导思想在于将非法用户与网络资源相互隔离,从而达到限制用户非法访问的目的。办公自动化网络可以根据部门或业务需要分段.网络分段可采用物理分段或逻辑分段两种方式:物理分段通常是指将网络从物理层和数据链路层上分为若干网段,各网段相互之间无法进行直接通讯;逻辑分段则是指将整个系统在网络层上进行分段。并能实现子网隔离。在实际应用过程中,通常采取物理分段与逻辑分段相结合的方法来实现隔离。采取相应的安全措施后,子网间可相互访问。对于TCP/IP网络,可把网络分成若干IP子网,各子网间必须通过路由器、路由交换机、网关或防火墙等设备进行连接,利用这些中间设备(含软件、硬件)的安全机制来控制各子网间的访问。在这里,防火墙被用来隔离内部网络的一个网段与另一个网段,可以限制局部网络安全问题对全局网络造成的影响。
(4)病毒防治
相对于单机病毒的防护来说,网络病毒的防治具有更大的难度,网络病毒防治应与网络管理紧密结合。网络防病毒最大的特点在于网络的管理功能,如果没有管理功能,很难完成网络防毒的任务。只有管理与防范相结合,才能保证系统正常运行。计算机病毒的预防在于完善操作系统和应用软件的安全机制。在网络环境下,病毒传播扩散快,仅用单机防杀病毒产品已经难以清除网络病毒,必须有适用于局域网、广域网的全方位防杀病毒产品。为实现计算机病毒的防治,可在办公自动化网络系统上安装网络病毒防治服务器,并在内部网络服务器上安装网络病毒防治软件,在单机上安装单机环境的反病毒软件。安装网络病毒防治服务器的目标是以实时作业方式扫描所有进出网络的文件。本地网络与其它网络间的数据交换、本地网络工作站与服务器间的数据交换、本地网络各工作站之间的数据交换都要经过网络病毒防治服务器的检测与过滤,这样就保证了网络病毒的实时查杀与防治。
(5)数据恢复
办公自动化系统数据遭到破坏之后,其数据恢复程度依赖于数据备份方案。数据备份的目的在于尽可能快地全盘恢复运行计算机系统所需的数据和系统信息。根据系统安全需求可选择的备份机制有:实时高速度、大容量自动的数据存储、备份与恢复;定期的数据存储、备份与恢复;对系统设备的备份。备份不仅在网络系统硬件故障或人为失误时起到保护作用,也在人侵者非授权访问或对网络攻击及破坏数据完整性时起到保护作用,同时亦是系统灾难恢复的前提之一。
随着企业各部门之间、企业和企业之间、国际间信息交流的日益频繁,办公自动化网络的安全问题已经提到重要的议事日程上来,一个技术上可行、设计上合理、投资上平衡的安全策略已经成为成功的办公自动化网络的重要组成部分。

cephfs中告警盘点

总结下cephfs中由mds产生的告警信息。

Behind on trimming...

字面翻译落后于日志裁剪(trim)。mds的日志机制:mds以日志方式先保存元数据,元数据保存在每条操作的事件(event)中,事件(通常是1024个)组成segment。当segment到达一定数量时(mds_log_max_segments默认32)对日志进行裁剪,即将部分日志关联的元数据写回。出现该条告警实际上表明回写速度慢或者遇到了bug,单纯地将配置提高并不是最理想的办法。

Client name failing to respond to capability release

客户端没有及时响应释放cap的请求。在cephfs中客户端需要向mds获得响应的操作能力,称为cap。获得cap则有相关的操作能力。如果其他客户端需要操作时,mds会要求当前客户端释放cap。如果客户端出现bug或者没有响应,则mds会在60秒(session_timeout 设置)会出现该告警。

Client name failing to respond to cache pressure

客户端没有及时相应(mds的)缓存压力。元数据缓存一部分元数据信息,同时mds会在自身内存中缓存同样的信息。如果其缓存的元数据超过了最大inode缓存量或者最大内存用量,mds会要求客户端释放一定数量的缓存。如果在规定时间内即60s(mds_recall_warning_decay_rate的值)没有释放32k(默认设置在mds_recall_warning_threshold中,随后会减少)则产生告警 。产生告警的原因可能是客户端存在bug或者无法及时响应。

Client name failing to advance its oldest client/flush tid

客户端没有更新其最久客户端tid值。tid是指客户端和mds直接通信的task id。每次客户端完成任务后更新该task id,告知mds mds可以不用管该id之前的任务了。mds即可释放相关的占用资源。否则,资源不会被主动释放。当mds端自行记录的任务完成数超过100K(max_completed_requests设置)时,客户端并没有更新id,则产生相应的告警。

出现该告警可能代表客户端存在bug。也遇到过mds因为锁问题部分请求卡住,重启mds 锁状态正常后可以恢复。

MDS in read-only mode

字面翻译mds进入只读模式。只读模式意味着在客户端上创建文件等操作元数据的行为将不被允许。进入只读的原因可能是向元数据池写入时发生错误,或者通过命令强制mds进入只读模式。

N slow requests are blocked

字面翻译多个慢请求在阻塞状态。出现该条告警意味着客户端的消息没有处理完成,超过了mds_op_complaint_time所规定的时间(默认30s)。可能出现的原因是mds运行缓慢,或者向rados写入日志未确认(底层pg或者osd出现问题),或者是mds存在的bug。此时,通过ops命令查看当前正在执行的操作,可进一步分析出现阻塞请求的原因。

Too many inodes in cache

字面翻译在mds的缓存中缓存了太多inode。mds的缓存指两个方面:inode数量和内存占用量。inode默认值mds_cache_size为100K,mds_cache_memory_limit为1G。到达一个告警的阈值后产生告警,一般为50%(mds_health_cache_threshold)。通过调整参数可以避免告警的出现,但是这只是治标的办法,治本的办法需要跟踪业务,了解资源占用的具体原因,是否只是通过调整参数可以解决。

华为设备有如下告警,期间并没有修改配置,请分析大概是什么原因

磁盘空间告警
告警信息:IGWB介质空间不足。
告警分析:主用IGWB在剩余磁盘空间小于15%的时候就会出磁盘空间告警,省公司要求话单保存时间:原始话单15天(D盘),格式转换后的话单15天(E盘),最终话单90天。
告警处理:删除部分格式转换后的话单(E:\backsave\Second\X3KM\),剪切部分最终话单到应急工作站(暂时),建议增加IGWB硬盘空间。
02备用IGWB磁盘空间不足
故障现象:备用IGWB磁盘空间不足
故障分析:备用IGWB是实现话单双备份的组成,并且如果备用IGWB磁盘剩余空间过小,主用IBWG异常的时候将无法倒换。
故障处理:清理备用IGWB磁盘空间。
03单板故障
告警信息:例如WSMU 板故障、单板CPU自检故障。
告警分析:无
告警处理:1.复位 2.拔插 3.更换
04电源故障
告警信息:-48V 电压过高告警。
告警分析:
告警产生原因:
· 动力进行例行放电测试,致电压临时过高
· 电压已恢复正常,但告警未自动消除,出现假告警
· 电压过高导致。根据指令DSP PDB可以查询到系统的电压正常范围是-42V~-57V,经常观察如果电压过高后,告警会在电压降到-54V的时候消除。如果告警长时间未自动恢复,可以用万用表测电压,看是否在正常范围内,如果电压已正常,可以手动把电压的门限值进行调高,使告警恢复后再把门限值调到正常范围内。
告警处理:
1.联系动力专业,确认是否在进行电池放电测试。如是,在测试完成后观察告警是否消除
2. 根据指令DSP PDB可以查询到系统的电压正常范围是-42V~-57V,经常观察如果电压过高后,告警会在电压降到-54V的时候消除。如果告警长时间未自动恢复,可以用万用表测电压,看是否在正常范围内,如果电压已正常,可以手动把电压的门限值进行调高,使告警恢复后再把门限值调到正常范围内。(现在配电框监控板默认的告警上限目前定义为57V,产品设置时,可在此基础上加3V,设置为60V比较合适。
MSOFTX3000可以通过软调修改电压告警上限。
软调命令如下:
STR SFTD: LT=MN, MN=2, PID="166", CTRL="36", PM0="1", PM1="60", PM2="42";
STR SFTD: LT=MN, MN=2, PID="166", CTRL="36", PM0="2", PM1="60", PM2="42";)
3.观察一段时间,如告警不会自动恢复就联系动力室处理。
05IGWB倒换
告警信息:iGWB双机倒换
告警分析:双机倒换通常是主用IGWB异常引起,可能原因:磁盘空间不足,重要目录被改动,网络故障,进程异常。
告警处理:清理磁盘空间,恢复被改动目录,检查处理网络,重启IGWB进程。
06传输故障
告警信息:E1端口故障或信号丢失。
告警分析:无
告警处理:自环检测,通过LOP E1对本端端口进行软件环回,如正常则表示单板端口硬件正常,再在各段DDF架端进行环回测试,逐段排除线缆原因,如是本端问题则重做线缆接口、换线或者换板,如是传输问题则转传输室处理。
07IGWB内存过载
告警信息:iGWB 内存过载。
告警分析:IGWB上运行的主要进程有om_proc.exe,ap_proc.exe,cfg_proc.exe,cls_proc.exe,knl_proc.exe。主要检查这些进程有没有大量占用内存空间。现在SZS09,SZS12的om_proc.exe进程占用大量内存不释放。
告警处理:暂时的处理办法是重启om_proc.exe,最终解决方法等待华为工程师补丁解决。
08IGWB备份失败
告警信息:iGWB备份连接失败。
告警分析:IGWB备份有两份,都是从主用IGWB以FTP方式备份到备用IGWB。一份保存在备机的E:\billforbs,保存1000个文件,通过smartback实现;一份保存在E:\ finabill_bak,保存时间为90天,通过igwb.ini文件的配置信息实现。
告警处理:检查smartback备份的路径和用户名密码是否正确;重启smartback软件;重启IGWB进程。
09网络故障
告警信息:BAM到主机连接中断、TCP链路故障。
告警分析:故障可能原因lanswitch异常,网口松动,网卡运行异常。
告警处理:拔插BAM主机网线,拔插lanswitch端口网线,禁用启用网卡,重启BAM。
10MTP、SCCP、M3UA故障
告警信息:M3UA路由传输禁止 路由不可用;MTP链路故障/MTP 链路定位失败;SCCP目的信令点禁止。
告警分析:故障可能原因传输故障引起,配置数据变更,链路负荷过高。
告警处理:检查传输,检查数据配置信息,检查是否为垃圾数据产生的告警。
11话单文件校验错误或话单文件丢失
告警信息:无
告警分析:可能是话单文件传送到计费中心出错,需要重传计费文件
告警处理:重传相应计费文件
12更换单板时程序加载不成功
告警信息:单板程序加载不成功
告警分析:可能原因:1.单板加载软开关未打开.2. 加载文件丢失
告警处理:1.通过MOD LSS修改单板加载软开关,设置为”程序不可用,数据不可用 ,数据可写, 程序可写”,加载完成修改为” 程序可用,数据可用,数据可写,程序不可写”
2.主机加载文件都存于BAM的D:/data 目录下,在此目录下查找所要加载的单板的程序文件,如未找到,说明文件因其他原因丢失,通过在其他同类型同版本局上能找到该单板的程序文件,将文件拷贝至该目录下,重新复位加载单板。
13硬盘故障
故障现象:故障磁盘灯亮红灯。
故障分析:华为软交换的硬盘都采用磁盘阵列方式对数据进行保护,硬盘支持热拔插,坏一块磁盘不影响系统运行,但是要尽快安排更换。
故障处理:更换硬盘。
14主机时间偏差
故障现象:检查主机系统时间发现网元的主机时间和北京时间相差较大。
故障分析:主机系统时间就是话单产生时间,华为认为偏差在正负5秒是正常的,超过这个范围需要校正。
故障处理:主机时间和BAM时间同步,更正其中一个就可以达到校正的目的。可以通过DSP TIME查看系统时间,通过指令SET TIME修改,或者直接改BAM的系统时间。
15CRC校验错误
故障现象:CRC校验错误告警。
故障分析:交换机数据与BAM机数据不一致,可能是由于工程引起的故障。
故障处理:通过SND SPD指令对校验出错的数据表进行强制发送,再次执行STR CRC进行CRC校验
以上,就是给大家整理的华为设备故障分析与排除方法,希望对你能有所启发。

相比传统运维工具,AIOps的优势在哪里

所谓的AIOps,简单理解就是基于自动化运维,将AI和运维很好的结合起来。

AIOps的落地在多方面直击传统运维的痛点,AI算法承担起分析海量运维数据的重任,能够自动、准确地发现和定位问题,从决策层面提高运营效率,为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。

可见,AIOps 在企业中的作用正在进一步放大。但事实上,很多企业对于AIOps 能解决什么问题并不清晰,今天我们就以博睿数据的AIOps 的三大场景和算法说起。

博睿数据的AIOps 实践

作为中国领先的智能可观测平台,在AIOps实践方面,多年来博睿数据积极拥抱人工智能、机器学习等新技术变革的浪潮,并基于AI和机器学习技术,自主研发了“数据接入、处理、存储与分析技术”核心技术体系,全面布局智能基线、异常检测、智能告警、关联分析、根因分析等丰富且广泛的智能运维功能,并将AIOps能力融入端到端全栈监控产品线,可为传统企业提供强大的数据处理、存储和分析的软件工具,帮助客户整合各类IT运维监控数据,实现数据的统一存储和关联分析,打破数据孤岛,构建统一的IT运维管理平台,让企业的IT运维更加智能化、自动化。

在此基础上,博睿数据还依托完整的IT运维监控能力,利用大数据和机器学习技术持续构建先进的智能运维监控产品,2021年先后推出了搭载了AI能力的新一代APM产品Server7.0和新版的统一智能运维平台Dataview,不断落地智能异常检测、根因分析、故障预测等场景。基于人工智能的能力实现运维监控场景的信息整合、特征关联和业务洞察,帮助企业确保数字化业务平稳运行,并保障良好的数字化体验。

目前,博睿数据在AIOps 技术方面主要落地了三大场景。即智能基线预测、异常检测及告警收敛。

随着企业业务规模扩大,云原生与微服务的兴起,企业IT架构复杂性呈现指数级增长。而传统的IT运维手段面临故障发生后,查找故障原因困难,故障平均修复时间周期长,已无法满足新的运维要求。因此运用人工智能赋能运维,去取代缓慢易错的人力决策,快速给出运维决策建议,降低问题的影响并提前预警问题就成为了必然。AIOps作为目前运维发展的最高阶目标,未来将会赋能运维带给用户全新的体验。

但需要注意的是,当前智能运维的很多产品和项目在企业侧落地效果并不理想,究其原因可归类为三点:一是数据采集与AI平台割裂,多源数据之间的关联关系缺失导致AI平台缺乏高质量的数据,进而导致模型训练效果不佳;二是数据采集以metric和log为主,导致应用场景较窄且存在数据孤岛问题;三是AI平台能力尚有提升空间。当前落地的场景多以异常检测与智能告警为主,未来需要进一步提升根因分析与故障预测的能力。

因此,未来企业首先要建设一体化监控运维平台,一体化是智能化的基础。基于一体化监控运维平台采集的高质量的可观测数据数据以及数据之间的关联关系,进一步将AIOps的能力落地到一体化监控运维平台中,从而实现问题精准定位与见解能力。

此外,在实际应用中,依据信通院的相关调查,其受访企业中只有不足20%的企业具有智能化监控和运维决策能力,超过70%的企业在应用系统出现故障的10分钟内一筹莫展。

各行业的数字化转型正在改变这一现状,不仅互联网企业,更多传统企业的数字化转型为智能运维开拓了更广阔的市场,智能运维有着巨大的发展空间,这也是博睿数据等行业领先企业发力的大好时机。

提升创新能力,推广智能运维不仅是相关服务商自身发展的要求,也是提升我国企业应用管理和运维水平的使命。

中国企业数字化转型加速,无论是前端的应用服务迭代更新,还是后端IT运维架构的复杂度提升,都在加速培育智能运维的成长。

关于告警信息持续跟踪分析和告警信息处理的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 告警信息持续跟踪分析的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于告警信息处理、告警信息持续跟踪分析的信息别忘了在本站进行查找喔。
上一篇:惠普:云计算环境下IT运维自动化更需要配套
下一篇:神州信息独创"操作机器人"以提升IT运维效率
相关文章

 发表评论

暂时没有评论,来抢沙发吧~