告警和故障分析报告范文(故障报告分析和纠正措施)

来源网友投稿 738 2023-03-30

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈告警和故障分析报告范文,以及故障报告分析和纠正措施对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享告警和故障分析报告范文的知识,其中也会对故障报告分析和纠正措施进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

计算机巡检报告怎么写(我要范文)

巡检报告单
机器型号:
序列号:
检查时间:_______年____月____日
1. 机房环境:
? 温度 □符合要求 □不符合
? 湿度 □符合要求 □不符合
2. 机器清洁(根据需要清洁机器各部件): □已清洁 □不需要
3. 检查系统硬件情况:
? 设备故障灯是否有亮 □有 □无
? 是否有其他否异常情况(如硬盘、风扇异常的声音,电缆破损)
□有 □无
4. 系统错误报告(Error Log):
? 有否硬件故障 □有 □无
故障内容:
若有硬件,运行故障诊断分析错误报告( eg: diag -ed hdisk1)
结论(如SRN, FRU等):
? 有否软件故障 □有 □无
故障内容:
结论:
5. 有否发给root用户的错误报告(mail): □有 □无
结论:
6. 检查hacmp.out,smit.log,bootlog等: □正常 □不正常
7. 文件系统的使用率不大于80%: □是 □否
8. 查看卷组信息(lsvg -l vg_name),有没有"stale"状态的逻辑卷:□是 □否
若有,用syncvg 命令修复"stale"逻辑卷。
备注:
9. 系统性能,有否性能瓶颈(topas, vmstat等): □有 □无
? 交换区使用率是否超过70%(lsps -s),实际值____
? CPU是否繁忙(sar 1 10),idle值_____
? I/O平衡(iostat 1)
10. 备份:
? 有否合符要求的系统备份: □有 □无
? 最近一次系统备份的时间_________
? 有否符合要求的用户数据备份: □有 □无
? 有否符合要求的用户数据备份: □有 □无
? 磁带机是否需要清洗: □需要 □不需
11. 通信:
? 网卡的状态、IP地址、路由表等: □正常 □不正常
? 网卡通信(ping): □正常 □不正常
? /etc/hosts文件或DNS设置: □正常 □不正常
12. 系统DUMP设置是否正确: □正常 □不正常
13. HACMP 测试:
? Cluster Verification: □正常 □不正常;
? 相关参数设置检查: □正常 □不正常
? (根据需要)接管测试: □正常 □不正常
14. 系统硬件诊断:
? 系统板、CPU、内存、I/O板: □正常 □不正常
? 网卡、SCSI卡、SSA卡: □正常 □不正常
? 系统其他扩展卡: □正常 □不正常
? 硬盘、磁盘阵列: □正常 □不正常
? 磁带机、磁带库: □正常 □不正常
15. 查系统参数是否正确: □是 □否
? I/O pacing: High Water Mark/Low Water Mark:33/24
? Syncd:10
? Aio :available
? /etc/environment文件中TZ不应有夏时制
? Hacmp 系统中Power Monitor子系统应关闭
16. 补丁程序(PTF)检查,现有补丁维护版本为_____:
根据系统运行状况决定是否安装新的PTF。
需要安装的补丁程序:
17. 运行#snap –ac,生成文件命名为snap+s/n.pax.Z。
18. 检查errdemon, srcmstr是否正常运行: □是 □否
巡检内容及操作指导
1. IBM RS6000小型机机房要求:
1. 机房的卫生状况,要求清洁,键盘、显示器、机柜上没有灰尘。
2. 温度(摄氏 ℃)
10 ℃-40℃
湿度(%)
8% -80%
2. 设备故障灯分类:
主机故障灯
面板上不能有数字显示,如果有的话,说明系统有故障。
FAStT700磁盘阵列故障灯
告警灯为黄色表示有故障
磁带机故障灯
告警灯为黄色说明有故障或磁带机太脏,须清洗。
3. 系统错误报告(Error Log)的检查:
硬件故障检测命令:# errpt -d H -T PERM
若有故障执行命令# errpt -a -d H -T PERM/tmp/harderror.log保存,分析结果报告给客户
软件故障检测命令:# errpt -d S -T PERM
若有故障执行命令# errpt -a -d S -T PERM/tmp/softerror.log保存,分析结果报告给客户
4. 有否发给root用户的错误报告(mail):
#mail
1. 观察所有未读消息,注意有关diagela的消息。
2. 常用命令:
h [<num] Display headings of group containing message <num
t [<msg_list] Display messages in <msg_list or current message.
n Display next message.
q Quit
3. 对发现的问题详细分析,结果报告给客户
5. 文件系统的检查:
命令:
# df –kP
%Used为文件系统的使用率。所有文件系统的使用率不能大于80%
6.磁带机清洁的检查:
命令:
#/usr/lpp/diagnostics/bin/utape -cd rmt0 –n
显示结果为磁带机使用的小时数,若大于72小时,则不论磁带机黄灯是否亮都应用清洁带清洗。
6. 通信系统的检测:
1. 网卡的状态
命令:
#ifconfig –a
输出判断:
en0: flags=7e080863<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD,CHECKSUM_SUPPORT,PSEG
inet 192.168.1.3 netmask 0xffffff00 broadcast 192.168.1.255
主备网卡的flag为UP属正常。同时检查ip地址和netmask是否正确。
2. 路由的检测
命令:
#lsattr –El inet0
hostname shaixsvr Host Name True
gateway Gateway True
route Route True
bootup_option no Serial Optical Network Interface True
rout6 FDDI Network Interface True
authm 65536 Authentication Methods True
3. 网络的检测
命令:
#ping [ip address]
输出判断:
用ping命令对/etc/hosts文件中的IP地址进行操作,检测网络是否联通。
RAID 的Hotspare 属性是否打开
#smitty ssaraid? Change/Show Attributes of an SSA RAID Array
检查Enable Use of Hot Spares属性是否为YES
8.系统DUMP设置的检查
命令:
#sysdumdev –l
输出判断:
结果应为
primary /dev/hd6
secondary /dev/sysdumpnull
copy directory /var/adm/ras
forced copy flag TRUE
always allow dump FALSE
dump compression OFF
若不正确请用下列命令修改:
#sysdumdev –P –p /dev/hd6 –s /dev/sysdumpnull
9.HACMP 配置检测: Cluster Verification:
命令:
# /usr/sbin/cluster/diag/clconfig -v '-tr'
输出判断:
结果无Fail项输出。
10.系统硬件诊断:
命令顺序为:
1.#diag
2.Enter
3.Diagnostic Routines
4.System Verification
5.All Resources
6.F7
输出判断:
结果应为No trouble was found.
11.补丁程序(PTF)的检查
1. 系统维护补丁版本为ML05,检查命令为:
#instfix –i |grep ML
12.系统参数的检查
1.HIGH water mark for pending write I/Os
# lsattr -El sys0 |grep maxpout
输出判断:
结果应为
maxpout 33 HIGH water mark for pending write I/Os per file True
2.LOW water mark for pending write I/Os
# lsattr -El sys0|grep minpout
输出判断:
结果应为
minpout 24 LOW water mark for pending write I/Os per file True
更改命令为:
#chdev -l sys0 -a maxpout='33' -a minpout='24'
3.Syncd参数
# grep syncd /sbin/rc.boot
输出判断:
结果应为
nohup /usr/sbin/syncd 10 /dev/null 21
更改命令为:
#vi /sbin/rc.boot
4.aio参数
# lsdev -Cc aio
输出判断:
结果应为
aio0 Available Asynchronous I/O
# lsattr -El aio0
输出判断:
结果应为
minservers 1 MINIMUM number of servers True
maxservers 10 MAXIMUM number of servers True
maxreqs 4096 Maximum number of REQUESTS True
kprocprio 39 Server PRIORITY True
autoconfig available STATE to be configured at system restart True
fastpath enable State of fast path True
更改命令为:
#smitty aio
5.Limits文件的设置:
#ulimit –a
输出判断:
结果应为
time(seconds) unlimited
file(blocks) 2097151
data(kbytes) 262144 //尤其是这项参数
stack(kbytes) 32768
memory(kbytes) 32768
coredump(blocks) 2097151
nofiles(descriptors) 2000
更改命令为:
#vi /etc/security/limits
更改data为524288

机械故障标准的论文范文

引言
机械零部件的磨损是机械设备发生的故障中最常见、最主要的故障形式,是影响机械设备正常运行的主要障碍之一。据统计,磨损故障占机械设备故障的80%〔1〕,而且磨损还可诱发其它形式的故障。随着现代工业的发展,对生产的连续性和运转机械设备的可靠性要求不断提高,因而对机械设备进行磨损工况监测和故障诊断具有重要意义。 机械零部件发生磨损时,磨损颗粒便进入润滑系统并悬浮在润滑油中。这些微小的磨损颗粒携带有机械设备发生磨损故障的重要信息。为了从润滑油里的磨损颗粒中获取有关机械设备磨损故障的特征信息,常采用“油液监测技术”,其中包括磁塞法、光谱法、铁谱法、放射性示踪法、过滤法、颗粒计数法[2,3]。实践证明,在上述这些方法中,铁谱分析技术是监测磨损工况和诊断磨损故障最为有效的方法,在设备日常管理、预测性维修、可靠性分析和寿命预测方面起到了重要作用。
然而,在铁谱诊断技术应用的近20年中,诊断过程中的磨粒识别和故障诊断这两个关键步骤主要凭借人的经验。由于磨损现象的复杂性、研究的对象不同以及铁谱分析者间缺乏充分交流,导致使用磨粒术语和描述磨损故障的混乱,尽管在磨粒分类与磨粒
术语标准化方面还有一些基础工作要做,但
经过一些研究者的努力,已有比较一致的观点。相比之下,对磨损故障分类与磨损故障描述规范化的研究则较少。在人工诊断时,重点在磨粒识别,磨损故障描述方面的混乱对故障诊断的影响并不突出。随着现场监测对智能化诊断的迫切要求以及计算机图像处理技术和智能(人工智能和神经网络)技术在铁谱诊断中的应用,对磨损故障的分类与铁谱诊断方法提出了新的要求。本文系统分板到几械设备磨损故障和铁谱诊断过程,舞在综合分析铁谱诊断方法的基础上,提出了一个智能化铁请诊断模型。
1机械设备磨损故障分析
1.1机械设备磨损故障的原因
机械设备磨损故障(以下简称磨损故障)是指由于相对运动的两个表面之间的摩擦磨损致使设备的功能低于规定水平的状态。概括地讲,引起磨损故障有两种情况:①由设备设计时预计之中的常规磨损引起的故障。在一般机械零件摩擦副中,正常的零件磨损过程大致分为磨合磨损、稳定磨损和剧烈磨损三个阶段川。在稳定磨损达到一定时期时,设备的磨损率随时间而迅速增大,超出设备设计时规定的磨损量水平,使工作条件急剧恶化,进而使设备出现故障甚至完全失效;②设备安装与使用过程中的异常磨损
导致的故障。机械零件在安装过程中由于安装不良或(和)清洗不干净会导致设备在运转过程中的异常磨损,或者在使用过程中由于偶然的外来因素(磨料进入、载荷条件变化、a划伤:由于犁沟作用,在滑动方向上产生宽而深的划痕。
b点蚀:在接触应力反复作用下使金属咬死等)和内部因素(润滑不良、摩擦发热等)影响而出现异常磨损。异常磨损弓!发的故障具有偶然性和突发性,对此类故障的诊断具有重要意义。
1.2磨损故障的分类
分类的目的是为了将人们常用而又实
际存在的各式各样的磨损故障按一定的标准归纳为几个基本类型。合理的分类能够使诊断工作简化,有利于故障诊断的状态识别过程的进行,提高故障诊断的有效性。由于铁谱技术在诊断磨损类故障方面具有独特的优越性,因而本文的分类主要是针对铁谱诊断方法的。根据不同的应用目的,磨损故障从以下几个方面进行分类比较合适。 1.2.1按磨损机理划分
不同的磨损机理产生的磨粒各异,因而可通过磨粒分析来识别引起磨损故障的磨损机理,以便为设备的设计、制造服务。与润滑油分析有关的磨损机理可分为以下几类:
a粘着磨损:接触表面作相对运动时,由于固相焊涪作用使材料从一个表面转移到另一个表面而造成的一种磨损。 b 磨料磨损:由于硬颗粒或硬突起物使材料产生迁移而造成的一种磨损。 c疲劳磨损:由于循环交变应力引起疲劳而使材料脱落的一种磨损。微动磨损应归入此类。
d腐蚀磨损:由于与周围介质发生化学反应而产生的一种磨损。其中包括氧化磨损、氢致磨拐、介质腐蚀磨损。 1.1.2按磨损形式划分
磨粒的产生与磨损表面有着密切的联系,因而可从磨损表面的破坏形式来分类。按磨损形式来分,磨损故障可分为:
疲劳破坏而形成的表面凹坑。
c剥落:金属表面由于变形强化而变脆,在载荷作用下产生微裂纹随后剥落。 d胶合:由粘着效应形成的表面结点具有较高的连接强度,使剪切破坏发生在表面层内一定深度,因而导致严重磨损。 e腐蚀:由于润滑油中含水和润滑油膜破裂而使金属与周围介质发生化学反应而产生的表面损伤。
上述的划伤、点蚀、剥落和胶合有宏观与微观之分,对于铁谱诊断而言,主要是针对微观形式的。 1.2.3按磨损类型划分
对于磨损故障的描述,铁谱分析者针对铁谱分析的特点采用一套适用的分类方法,归纳起来可以说是按磨损类型来分: a正常磨损和磨合期磨损:滑动表面经常发生的正常磨损。
b切削磨损:由于滑动表面的相互穿入引起的非正常磨料磨损。
c滚动疲劳磨损:滚动接触表面的疲劳磨损。了滚滑复合磨损:与齿轮系相关的疲劳磨损和粘着磨损。
e严重滑动磨损:滑动表面的过载和高速造成的磨损。 1.2.4按磨损原因划分
按磨损原因来分,磨损故障可分为由磨料进入、润滑不良、油中含水、安装不良或有裂纹、过载、高速、过热和疲劳等引起的故障。这可为设备设计、保养和维修提供有用信息。
1.2.5按磨损程度划分
按磨损程度来分,磨损故障可分为正常磨损和严重磨损。正常磨损与严重磨损间并
无明确的定量界限。根据设备的重要性和诊断的灵敏性,磨损程度可分为3级:正常、b从谱片上的磨损颗粒中提取设备磨损状态的有用信息(征兆):磨粒识别与统计,注意、极高(报警);也可分成4级:正常、较正常、异常、严重异常磨损。 1.2.6‘按磨损材料划分
按磨损材料来分,磨损故障可分为黑色金属磨损故障、有色金属磨损故障和非金属磨损故障。
1.2.7按诊断对象划分
有的磨损故障在实际应用中采用俗称,比如在柴油机中有“拉缸”、“拉瓦”、“烧瓦”和“抱轴”等叫法。因而磨损故障也可按诊断的特定设备来分类,并制定出相应的诊断标准。
在故障诊断时,根据不同的诊断目的和任务要求,尽量采用某一分类方法并逐层推进,不要出现交叉使用的现象。
2铁谱诊断过程
铁谱诊断技术是一种以磨损颗粒分析为基础的诊断技术。采用该技术监测机械零部件的磨损状态,无需将正在运转的机械设备打开或关闭,就可确定其磨损状态。.由机械零部件产生的磨损颗粒作为分离相存在于润滑油中,通过铁谱仪磁场的作用将它们从润滑油中分离出来,特定的工况条件和冤同的金属零件产生的磨粒具有不同的特性。通过观察磨粒的颜色、形态、数量、尺寸及尺寸分布,可以推断机械设备的磨损程度、磨损原因和磨损部位。
根据机械设备诊断学的观点[4],故障诊断过程有3个主要步骤:信号测取(检测设备状态的特征信号),征兆提取(从所检测的特征信号中提取征兆)和状态识别(根据这些征兆和其它诊断信息来识别设备状态)。 具体来讲,铁谱诊断过程可分为以下几个步骤:
a取油样,制谱片,得到设备磨损状态的特征信纂一磨损颗粒;
磨损参数测量;
c根据上述征兆,识别设备的磨损状态(状态诊断),包括识别设备的磨损状态将有无异常(故障早期诊断)与是否已有异常(故障诊断);
d根据设备的征兆与状态,进一步分析设备的磨损状态及其发展趋势(状态分析),包括当设备有故障时,分析故障位置、类型、性质、原因与趋势等;
e根据设备的状态与趋势,作出决策,干预设备及其运行过程。
3磨损故障铁谱诊断方法与智能化铁谱诊断模型
3.1铁谱诊断方法
自铁谱技术问世以来,其发展重点主要是在诊断过程的前两步,对磨损故障识别理论与方法的研究较少,这可从众多有关铁谱技术用于磨损工况监测与故障诊断的资料中看出。
目前铁谱技术用于故障诊断所采用的方法归纳起来有3种:定性铁谱诊断法、定量铁谱诊断法(严格地说是准定量铁谱诊断法)、定性与定量相结合的铁谱诊断法。定性铁谱诊断能够在铁谱片上获取大量有关磨损状态的信息,但在很大程度上受操作者的经验和其它主观因素的影响,状态识别过程由领域专家或分析者来完成。诊断是依据谱片上磨粒的形态、数量、颜色、尺寸及尺寸分布等信息来推断机器的磨损状态。目前普遍得到应用的铁谱分析报告单就是定性铁谱诊断的总结。将模糊数学方法应用到定性铁谱诊断,可让计算机模拟专家的识别方法进行磨损状态诊断,这种方法具有一定的智能性,但这并不是铁谱诊断技术发展的关键所在。目前的定量铁谱诊断是根据铁谱片上磨粒的浓度和磨粒的尺寸分布来对设备的磨损状态作出诊断。诊断主要采用函数分
析法、趋势分析法和灰色理论等方法,有些方法已能在一定程度上反映出智能性。定量铁谱诊断具有较大的客观性,但所提供的数据只反映出少量的磨损状态信息,而且不能应用在脂样分析中。定量与定性相结合铁谱诊断是目前实际应用的最多的一种方法,一般是先用定量参数进行故障可能性和趋势判断,再辅之以铁谱片上磨粒特征分析来确诊。
为了提高铁谱诊断技术的准确性和智能性,必须进一步发展定量铁谱诊断方法。该方法应能综合定量分析磨粒的形态、尺寸、数量、颜色和尺寸分布等特征并应角人工智能和神经网络的方法加以诊断。随着计算机图像分析技术以波人工智能特别是神经网络技术不断发展,为实现综合定量铁谱诊断及其智能化创造了有力的条件。将智能化技术应用到铁谱诊断,其诊断过程的第三步不仅变得同前二步一样重要,而且将会成为智能诊断技术的关键,因而对磨损故障识别理论与方法的研究很有必要。
由于磨损现象的复杂性和磨粒分析的困难性,铁谱诊断智能化的发展一直较缓慢。1989年美国的Carborundum公司开发出一套被称之为FAST的铁谱分析专家系统[5],并在最近将其发展成FASTPLUS系统。据报道,利用这一专家系统可以对铁谱片进行分析并以人机对话的方式进行决策。但从原理上看,该系统主要是将谱片上的特征磨粒与存储在系统的光盘中的磨粒图谱的照片进行比较而得出结论,因而具有较大的局限性。在国内,文献[6]困将计算机图像分析技术和人工智能理论与方法引人到铁谱分析技术中,建立了基于黑板的铁谱图像解释系统的模型,并进行了部分研究,取得一些很有意义的研究成果。由于追求铁谱诊断的完全智能化使得该技术离实用还有较远的距离。
3.2磨损故障铁谱诊断水平
根据铁谱诊断的目的和实际应用的需要,将磨损故障铁谱诊断水平划分成3个级别:
第一级诊断水平三对设备状态进行监测、确定磨损状态是否正常;
第二级诊断水平:在第一级诊断的基础上,判别引起磨损状态异常的磨损原因、类型、形式乃至趋势分析,以便采取维修措施或改进设计。不同原因导致的故障具有不同的表现形式,从而反映出不同的故障状态。通过磨粒的形态、尺寸、数量、分布等特征可对磨损原因进行识别;
第三级诊断水平:用以判断发生故障的部位或部件,同时也为第二级诊断提供补充信息。
不同的材料产生的磨粒经谱片加热或湿化学处理在铁谱显微镜下可以区分出来,从而将故障
隔离到不同零件上。由于设备结构的复杂性、同台设备使用摩擦副材料相同性以及鉴别材料手段的局限性,使得故障隔离与定位并不能总是有效。但为了提高磨损故障诊断的有效性和全面性,此级诊断无疑是必要的。
在人工诊断时,上述3级诊断常常是同步完成的,但随着现场监测对智能化诊断的需要,在人工智能或神经网络技术引入到铁谱诊断后,就需要对磨损故障诊断水平进行分级。
3.3智能化铁谱诊断模型
本文从实际应用的需要出发,提出一种智能化铁谱诊断系统模型,如图1所示。其中的些主要工作已经完成。
该系统包括3大模块:磨粒分析模块、磨粒识别与统计模块和机械磨损故障铁谱诊断模块:在磨粒分析模块中可以采用计算
机图像分析和模拟人工分析两种方式。铁谱图像分析子系统 [7]能够提取定量的磨粒特征参数。这包括形态数字特征和光密度特征,提取的信息中的一部分输入磨粒识别与统计模块,并采用神经网络技术识别磨粒[8],经统计后,将结果送入磨粒信息库;一部分直接送入磨粒信息库。模拟人工分析子系统,采用人一机协作的方法,人工提取定性的磨粒特征参数,应用神经网络专家系统进行磨粒识别[9],识别结果经统计后送入磨粒信息库;定量钳普参数采用光密度计测量,测量结果直接送入磨粒信息库。根据不同的需要,磨粒信息库中的数据可按不同的方式组织,形成不同的数据文件,以备故障诊断与监测取用。机械磨损故障铁谱诊断模块根据用户需要可实现磨损状态诊断、磨损故障类型诊断和磨损原因诊断,三者的实现均采用神经网络模型[l0转自深圳培训吧www.szpxb.com]。在铁谱诊断时,除了利用磨粒信息库的数据文件作为输入向量外,还应充分利用被监测设备知识库的知识。该系统还可以直接从磨粒信息库中提取数据,采用神经网络技术进行磨损趋势预测

华为设备有如下告警,期间并没有修改配置,请分析大概是什么原因

磁盘空间告警
告警信息告警和故障分析报告范文:IGWB介质空间不足。
告警分析:主用IGWB在剩余磁盘空间小于15%告警和故障分析报告范文的时候就会出磁盘空间告警,省公司要求话单保存时间:原始话单15天(D盘),格式转换后的话单15天(E盘),最终话单90天。
告警处理:删除部分格式转换后的话单(E:\backsave\Second\X3KM\),剪切部分最终话单到应急工作站(暂时),建议增加IGWB硬盘空间。
02备用IGWB磁盘空间不足
故障现象:备用IGWB磁盘空间不足
故障分析:备用IGWB是实现话单双备份的组成,并且如果备用IGWB磁盘剩余空间过小,主用IBWG异常的时候将无法倒换。
故障处理:清理备用IGWB磁盘空间。
03单板故障
告警信息:例如WSMU 板故障、单板CPU自检故障。
告警分析:无
告警处理:1.复位 2.拔插 3.更换
04电源故障
告警信息:-48V 电压过高告警。
告警分析:
告警产生原因:
· 动力进行例行放电测试,致电压临时过高
· 电压已恢复正常,但告警未自动消除,出现假告警
· 电压过高导致。根据指令DSP PDB可以查询到系统的电压正常范围是-42V~-57V,经常观察如果电压过高后,告警会在电压降到-54V的时候消除。如果告警长时间未自动恢复,可以用万用表测电压,看是否在正常范围内,如果电压已正常,可以手动把电压的门限值进行调高,使告警恢复后再把门限值调到正常范围内。
告警处理:
1.联系动力专业,确认是否在进行电池放电测试。如是,在测试完成后观察告警是否消除
2. 根据指令DSP PDB可以查询到系统的电压正常范围是-42V~-57V,经常观察如果电压过高后,告警会在电压降到-54V的时候消除。如果告警长时间未自动恢复,可以用万用表测电压,看是否在正常范围内,如果电压已正常,可以手动把电压的门限值进行调高,使告警恢复后再把门限值调到正常范围内。(现在配电框监控板默认的告警上限目前定义为57V,产品设置时,可在此基础上加3V,设置为60V比较合适。
MSOFTX3000可以通过软调修改电压告警上限。
软调命令如下:
STR SFTD: LT=MN, MN=2, PID="166", CTRL="36", PM0="1", PM1="60", PM2="42";
STR SFTD: LT=MN, MN=2, PID="166", CTRL="36", PM0="2", PM1="60", PM2="42";)
3.观察一段时间,如告警不会自动恢复就联系动力室处理。
05IGWB倒换
告警信息:iGWB双机倒换
告警分析:双机倒换通常是主用IGWB异常引起,可能原因:磁盘空间不足,重要目录被改动,网络故障,进程异常。
告警处理:清理磁盘空间,恢复被改动目录,检查处理网络,重启IGWB进程。
06传输故障
告警信息:E1端口故障或信号丢失。
告警分析:无
告警处理:自环检测,通过LOP E1对本端端口进行软件环回,如正常则表示单板端口硬件正常,再在各段DDF架端进行环回测试,逐段排除线缆原因,如是本端问题则重做线缆接口、换线或者换板,如是传输问题则转传输室处理。
07IGWB内存过载
告警信息:iGWB 内存过载。
告警分析:IGWB上运行的主要进程有om_proc.exe,ap_proc.exe,cfg_proc.exe,cls_proc.exe,knl_proc.exe。主要检查这些进程有没有大量占用内存空间。现在SZS09,SZS12的om_proc.exe进程占用大量内存不释放。
告警处理:暂时的处理办法是重启om_proc.exe,最终解决方法等待华为工程师补丁解决。
08IGWB备份失败
告警信息:iGWB备份连接失败。
告警分析:IGWB备份有两份,都是从主用IGWB以FTP方式备份到备用IGWB。一份保存在备机的E:\billforbs,保存1000个文件,通过smartback实现告警和故障分析报告范文;一份保存在E:\ finabill_bak,保存时间为90天,通过igwb.ini文件的配置信息实现。
告警处理:检查smartback备份的路径和用户名密码是否正确;重启smartback软件;重启IGWB进程。
09网络故障
告警信息:BAM到主机连接中断、TCP链路故障。
告警分析:故障可能原因lanswitch异常,网口松动,网卡运行异常。
告警处理:拔插BAM主机网线,拔插lanswitch端口网线,禁用启用网卡,重启BAM。
10MTP、SCCP、M3UA故障
告警信息:M3UA路由传输禁止 路由不可用;MTP链路故障/MTP 链路定位失败;SCCP目的信令点禁止。
告警分析:故障可能原因传输故障引起,配置数据变更,链路负荷过高。
告警处理:检查传输,检查数据配置信息,检查是否为垃圾数据产生的告警。
11话单文件校验错误或话单文件丢失
告警信息:无
告警分析:可能是话单文件传送到计费中心出错,需要重传计费文件
告警处理:重传相应计费文件
12更换单板时程序加载不成功
告警信息:单板程序加载不成功
告警分析:可能原因:1.单板加载软开关未打开.2. 加载文件丢失
告警处理:1.通过MOD LSS修改单板加载软开关,设置为”程序不可用,数据不可用 ,数据可写, 程序可写”,加载完成修改为” 程序可用,数据可用,数据可写,程序不可写”
2.主机加载文件都存于BAM的D:/data 目录下,在此目录下查找所要加载的单板的程序文件,如未找到,说明文件因其他原因丢失,通过在其他同类型同版本局上能找到该单板的程序文件,将文件拷贝至该目录下,重新复位加载单板。
13硬盘故障
故障现象:故障磁盘灯亮红灯。
故障分析:华为软交换的硬盘都采用磁盘阵列方式对数据进行保护,硬盘支持热拔插,坏一块磁盘不影响系统运行,但是要尽快安排更换。
故障处理:更换硬盘。
14主机时间偏差
故障现象:检查主机系统时间发现网元的主机时间和北京时间相差较大。
故障分析:主机系统时间就是话单产生时间,华为认为偏差在正负5秒是正常的,超过这个范围需要校正。
故障处理:主机时间和BAM时间同步,更正其中一个就可以达到校正的目的。可以通过DSP TIME查看系统时间,通过指令SET TIME修改,或者直接改BAM的系统时间。
15CRC校验错误
故障现象:CRC校验错误告警。
故障分析:交换机数据与BAM机数据不一致,可能是由于工程引起的故障。
故障处理:通过SND SPD指令对校验出错的数据表进行强制发送,再次执行STR CRC进行CRC校验
以上,就是给大家整理的华为设备故障分析与排除方法,希望对你能有所启发。

协议转换器指示灯告警说明?

一、概述:

trav-v35/E1、trav-v35/FE1、etram-ev35f、etram-ev35是北京绿井科技发展有限公司自主研发生产告警和故障分析报告范文的面向大用户接入的v.35协议转换器。它们是协议转换器告警和故障分析报告范文,实现了V35到E1的帧与帧之间的转换(trav35/E1只实现非帧的操作模式)。

二、安装和维护中常见的问题:

在设备的安装、调试或维护过程中,工程师经常会遇到电路故障,设备会出现各种类型的报警,如LOSalarm,AISalarm,TD或RDnotbright等。如何在实践中解决类似的问题?

三、v.35协议转换器常用灯光含义:

1.洛杉矶:预警指标。LOS是变频器E1信号损耗的指示信号。

2.AIS:警报指示器。AIS为传输设备输入的转换器E1,电缆正常连接,但无信号。此时,转换器只接收传输设备发送的完整“1”码。正常情况下,灯是关着的。

3.TD:数据发送指示灯。TX是变频器v.35的数据发送指示信号。

RD:数据接收指示灯,RX是变频器v.35的数据接收指示灯信号,正常时此灯为亮。

4.故障排除、分析和解决

1.故障:线路v.35不通,变频器LOS报警灯亮。

分析:变频器有LOS报警,表明传输装置E1信号丢失。

原因及解决方案:

a.连接发射机E1到变频器E1的E1电缆出现故障。它可以通过万用表测量来判断。更换E1电缆解决故障告警和故障分析报告范文

B.光端机故障,没有信号发送到E1接口,或者光端机没有通电。万用表可用于测量光端子机是否有电源输入,或光端子机电源是否短路,或通过光端子机E1接口是否能观察到LOS报警状态。维修电源系统或更换光端机解决问题。

C.转换器故障,E1接口无法接收信号。通过断开转换器的以太网电缆,可以观察到self-loopE1接口,判断LOS报警状态。如果不排除LOS报警,可以判断设备故障。故障可以通过更换变频器来解决。

2.故障:v35线路不通,变频器AIS报警灯一直亮着。

分析:变频器有AIS报警,说明连接光端机E1发送和变频器E1接收的E1电缆连接正常,但无信号。此时,转换器接收光终端机器发送的全部“1”码。

原因分析:

A.光终端不接收终端转换器发送的E1信号。检查E1接线是否正常。

B.如果电源系统无法为光学终端和转换器供电,则需要对电源系统进行大修。

c、如光学终端、转换器损坏,需检查更换设备。

3.故障:线路v.35被阻塞,RD灯未亮。

分析:变频器RD灯未亮,说明变频器未收到路由器发送的信号。

原因分析:

A.路由器v的模块。35是损坏和v的信号。35不能发送。需要替换路由器来恢复线路。

电缆故障,无法传输v。35的信号。更换转换器或路由器v.35电缆以恢复线路。

C.转换器故障,无法接收v35信号。需要更换转换器以恢复线路。

4.故障:v.35线路被阻塞,TD灯未亮。

分析:v35信号不发送到这端,该转换器也不发送信号到这端路由器。如果灯亮着,这端与转换器和路由器没有任何关系。

原因分析:

A.端到端路由器损坏无法发送V35信号,或者转换器损坏无法接收v信号,或电缆的v。35是错误的,端到端转换器将有需要的RD灯不开,所以更换路由器和恢复线路。

B.端部路由器和转换器无法加载,v.35的信号无法传输到这端,这端也没有信号输出。

五、结论

当有一个错误在v.35行,首先需要检查局的远程设备是否正常启动,然后E1输电线路是否正常,然后判断故障发生在本地端或在远程端通过转换器的指示灯。最后,通过设备的检测、设置和更换,解决了故障。

另外,以太网传输网络中,不能出现网络回路回退(如E1回路回退、以太网回路回退),否则会引起网络风暴,导致以太网数据碰撞或网络瘫痪。

扩展资料:

注意事项:

协议转换器角色:

继电器的使用:由于信号在线路上传输,距离远了,信号就会衰减,因此需要一个自体网络协议转换器来将信号放大并中继到目标飞行器进行进一步的传输。

转换协议:以最简单的为例:在串行网络中,最常用的协议有RS232、RS485、CAN、USB等。如果您的PC只有一个串行端口100DB9,那么其他需要通信的机器使用USB接口。

解决方案很简单,使用usb-rs232协议转换器。将两种不同的协议定时,电相等进行交换。

飞昌科技有限公司是一家专业生产光终端机、光收发机、工业交换机、协议转换器的企业。

故障恢复方法 告警

‍测试环境中出现了一个异常的告警现象:一条告警通过 Thanos Ruler 的 HTTP 接口观察到持续处于 active 状态告警和故障分析报告范文,但是从 AlertManager 这边看这条告警为已解决状态。按照 DMP 平台的设计,告警已解决指的是告警上设置的结束时间已经过了当前时间。一条发送至 AlertManager 的告警为已解决状态有三种可能:1. 手动解决了告警2. 告警只产生了一次,第二次计算告警规则时会发送一个已解决的告警3. AlertManager 接收到的告警会带着一个自动解决时间,如果还没到达自动解决时间,则将该时间重置为 24h 后首先,因为了解到测试环境没有手动解决过异常告警,排除第一条告警和故障分析报告范文;其次,由于该告警持续处于 active 状态,所以不会是因为告警只产生了一次而接收到已解决状态的告警,排除第二条;最后,告警的告警的产生时间与自动解决时间相差不是 24h,排除第三条。那问题出在什么地方呢?

分析

下面告警和故障分析报告范文我们开始分析这个问题。综合第一节的描述,初步的猜想是告警在到达 AlertManager 前的某些阶段的处理过程太长,导致告警到达 AlertManager 后就已经过了自动解决时间。我们从分析平台里一条告警的流转过程入手,找出告警在哪个处理阶段耗时过长。首先,一条告警的产生需要两方面的配合:

metric 数据

告警规则

将 metric 数据输入到告警规则进行计算,如果符合条件则产生告警。DMP 平台集成了 Thanos 的相关组件,数据的提供和计算则会分开,数据还是由 Prometheus Server 提供,而告警规则的计算则交由 Thanos Rule(下文简称 Ruler)处理。下图是 Ruler 组件在集群中所处的位置:

看来,想要弄清楚现告警的产生到 AlertManager 之间的过程,需要先弄清除 Ruler 的大致机制。官方文档对 Ruler 的介绍是:You can think of Rule as a simplified Prometheus that does not require a sidecar and does not scrape and do PromQL evaluation (no QueryAPI)。

不难推测,Ruler 应该是在 Prometheus 上封装了一层,并提供一些额外的功能。通过翻阅资料大致了解,Ruler 使用 Prometheus 提供的库计算告警规则,并提供一些额外的功能。下面是 Ruler 中告警流转过程:

请点击输入图片描述

请点击输入图片描述

请点击输入图片描述

首先,图中每个告警规则 Rule 都有一个 active queue(下面简称本地队列),用来保存一个告警规则下的活跃告警。

其次,从本地队列中取出告警,发送至 AlertManager 前,会被放入 Thanos Rule Queue(下面简称缓冲队列),该缓冲队列有两个属性:

capacity(默认值为 10000):控制缓冲队列的大小,

maxBatchSize(默认值为 100):控制单次发送到 AlertManager 的最大告警数

了解了上述过程,再通过翻阅 Ruler 源码发现,一条告警在放入缓冲队列前,会为其设置一个默认的自动解决时间(当前时间 + 3m),这里是影响告警自动解决的开始时间,在这以后,有两个阶段可能影响告警的处理:1. 缓冲队列阶段2. 出缓冲队列到 AlertManager 阶段(网络延迟影响)由于测试环境是局域网环境,并且也没在环境上发现网络相关的问题,我们初步排除第二个阶段的影响,下面我们将注意力放在缓冲队列上。通过相关源码发现,告警在缓冲队列中的处理过程大致如下:如果本地队列中存在一条告警,其上次发送之间距离现在超过了 1m(默认值,可修改),则将该告警放入缓冲队列,并从缓冲队列中推送最多 maxBatchSize 个告警发送至 AlertManager。反之,如果所有本地队列中的告警,在最近 1m 内都有发送过,那么就不会推送缓冲队列中的告警。也就是说,如果在一段时间内,产生了大量重复的告警,缓冲队列的推送频率会下降。队列的生产方太多,消费方太少,该队列中的告警就会产生堆积的现象。因此我们不难猜测,问题原因很可能是是缓冲队列推送频率变低的情况下,单次推送的告警数量太少,导致缓冲队列堆积。下面我们通过两个方面验证上述猜想:首先通过日志可以得到队列在大约 20000s 内推送了大约 2000 次,即平均 10s 推送一次。结合缓冲队列的具体属性,一条存在于队列中的告警大约需要 (capacity/maxBatchSize)*10s = 16m,AlertManager 在接收到告警后早已超过了默认的自动解决时间(3m)。其次,Ruler 提供了 3 个 metric 的值来监控缓冲队列的运行情况:

thanos_alert_queue_alerts_dropped_total

thanos_alert_queue_alerts_pushed_total

thanos_alert_queue_alerts_popped_total

通过观察 thanos_alert_queue_alerts_dropped_total 的值,看到存在告警丢失的总数,也能佐证了缓冲队列在某些时刻存在已满的情况。

解决通过以上的分析,我们基本确定了问题的根源:Ruler 组件内置的缓冲队列堆积造成了告警发送的延迟。针对这个问题,我们选择调整队列的 maxBatchSize 值。下面介绍一下这个值如何设置的思路。由于每计算一次告警规则就会尝试推送一次缓冲队列,我们通过估计一个告警数量的最大值,得到 maxBatchSize 可以设置的最小值。假设告警和故障分析报告范文你的业务系统需要监控的实体数量分别为 x1、x2、x3、...、xn,实体上的告警规则数量分别有 y1、y2、y3、...、yn,那么一次能产生的告警数量最多是(x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn),最多推送(y1 + y2 + y3 + ... + yn)次,所以要使缓冲队列不堆积,maxBatchSize 应该满足:maxBatchSize = (x1 * y2 + x2 * y2 + x3 * y3 + ... + xn * yn) / (y1 + y2 + y3 + ... + yn),假设 x = max(x1,x2, ...,xn), 将不等式右边适当放大后为 x,即 maxBatchSize 的最小值为 x。也就是说,可以将 maxBatchSize 设置为系统中数量最大的那一类监控实体,对于 DMP 平台,一般来说是 MySQL 实例。

注意事项

上面的计算过程只是提供一个参考思路,如果最终计算出该值过大,很有可能对 AlertManager 造成压力,因而失去缓冲队列的作用,所以还是需要结合实际情况,具体分析。因为 DMP 将 Ruler 集成到了自己的组件中,所以可以比较方便地对这个值进行修改。如果是依照官方文档的介绍使用的 Ruler 组件,那么需要对源码文件进行定制化修改。

月度可燃气体,有毒气体检测器故障报警原因及处置报告编制?

像本月可燃、有毒气体检测器故障报警原因及处置告警和故障分析报告范文的报告编制最好是自己编写比较好一点,而且显得更真实有效。这里给你一些建议及灵感,以供参考。


你可以把本月的可燃有毒气体检测仪按照多种方式来进行分类,然后相应的将本月气体检测仪的故障报警原因以及处理结果等填写进去即可。


具体来说就是,可以把可燃、有毒气体检测仪按照安装类型,在报表里面,分为便携式气体检测仪、壁挂式气体检测仪以及镶嵌固定在设备上的气体检测仪等种类。另一种分类方法,是按照工作场所或者监测的机器设备及工序的不同来分类的,比如可以按照气体检测仪安装车间厂房的不同来划分,也可以按照气体检测仪需要监控的机器设备的不同或者说是不同生产工序来进行分类。


另外,对于可燃有毒气体检测仪的故障报警原因也可以按照不同因素来进行分类,比如,可分为人为损坏、探测器堵塞、线路问题等不同故障。赢润环保认为当然最后的处理结果报告也有不同的种类,修理好告警和故障分析报告范文了的应当总结导致问题发生的原因,看是否可以通过定制规则来避免或减少同类故障;没有修理好的也应当分析总结,是因为修理费用过高修理不划算还是说因为技术性的问题无法修理,甚至是供应商扯皮推诿等原因都需记录在案,以供参考。


关于气体检测仪的相关问题,欢迎来赢润环保官网咨询:www.xayingrun.com

关于告警和故障分析报告范文和故障报告分析和纠正措施的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 告警和故障分析报告范文的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于故障报告分析和纠正措施、告警和故障分析报告范文的信息别忘了在本站进行查找喔。
上一篇:聊聊Flask使用SQLite数据库,你会吗?
下一篇:数据中心整合带给网络运维的挑战和机遇
相关文章

 发表评论

暂时没有评论,来抢沙发吧~