告警分析指标模板(告警等级的划分并说明)

来源网友投稿 554 2023-04-02

本站部分文章、图片属于网络上可搜索到的公开信息,均用于学习和交流用途,不能代表睿象云的观点、立场或意见。我们接受网民的监督,如发现任何违法内容或侵犯了您的权益,请第一时间联系小编邮箱jiasou666@gmail.com 处理。
本篇文章给大家谈谈告警分析指标模板,以及告警等级的划分并说明对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 今天给各位分享告警分析指标模板的知识,其中也会对告警等级的划分并说明进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!

本文目录一览:

运营指标与告警策略思考

一、运营指标

用户指标数据 ,通过可以衡量用户体验的的核心行为表现数据指标来衡量效果

业务性能监控, 各API状态等后台不可见的算法流程和内容

举例:

新闻产品: 首页推荐结果的点击率、各类新闻的占比等(拟合推荐策略效果)

电商产品 :单店日销售额、促销产品影响面(评估促销收益比)

云服务产品: 云服务可用率、云服务作业成功率

游戏产品: 业务规则监控(用户胜率、攻击频率上限)、系统可靠性监控

由于业务规则监控取决于业务方自己的业务属性较多,下文举例系统可靠性监控。

【1】请求数,请求到达速率

【2】正常响应数,正常响应占比

【3】错误响应数,错误响应占比

【4】响应延时

【5】消息队列长度,排队堆积时间、消息量

互联网系统根据计算机网络模型,可靠性监控可以分为下面4层。

【1】 应用层 :用户访问的前端页面、后端接口请求

【2】 服务层 :db,中间件等各种进程

【3】 硬件层 :cpu,内存,磁盘,网络

可靠性监控思考:

【1】不应该用采集的难度决定你使用什么指标去告警。

例如:很多情况下cpu使用率可能是最好采集的,但是未必是最值得告警的。

【2】不要给运维告警分析指标模板他们想要的告警,而是要做“真正”想要的告警。

例如:运维告诉你它需要对db进程的cpu使用率超过x%的时候告警,它给你的是一个他认为最优的解决方案。但是他真正想要的是知道db服务是否有异常,cpu使用率超过x%未必是最好的告诉你服务是否出现异常的指标。
二、规则告警

告警规则 :根据历史数据定义一个正常波动区间,超出波动区间就报警。

告警策略主要字段: 名称、资源类型、监控对象、告警级别、告警策略(根据资源类型展示不同的数据信息)、监控指标对象、告警指标间处理逻辑、触发条件、告警频率、状态、最近改变时间

吿警方式 :

短信、电话 :成本高,实时性好,到达率高

办公APP :成本低,实时性中,到达率中

邮件 :成本低,实时性差,到达率高

告警收敛:

【1】服务运营指标收敛 策略:按服务名、运营指标去重

【2】模块告警收敛 策略:按照集群名称做去重

【3】接口告警收敛 策略:按照接口名称做去重

【4】告警频率收敛 策略:按照M分钟N次限制告警

【5】不同时段区分告警 方式策略:工作日/非工作日,白天/夜晚区分

【6】逐层上报 告警策略:先模块负责人告警,n分钟未恢复升级,m分钟未恢复再升级

【7】黑白跳动 策略:当系统由正常变为异常,异常恢复正常都通报

是否告警:

曲线平滑 :故障一般是对近期趋势的一个破坏,视觉上来说就是不平滑

绝对值的时间周期性 :静态或者动态设置最近一段时间的最低值、最高值

波动的时间周期性 :假设两个曲线不重合,在相同时间点的波动趋势和振幅也是类似的(即不同时间段的上、下限值的差是一致的)

波动回归正常值 :当曲线开始回升到历史范围的时候,一般可以确认这个时间段是真的故障告警分析指标模板了。同时也可优统计误警率,漏警率。

告警自动消除:

告警的实质就是“ 把人当服务用 ”。在一些事情还没有办法做到程序化执行的时候,用告警通知人的方式去干预系统达到修正的目的。后续通过收集异常问题,并制定相应的自动化解决方案,实现告警的自动消除。
三、产品画像

产品画像,可以结合已有的运营指标、研发指标、部署指标、故障指标去实现云服务产品画像。

在选取指标时,需要注意:

【1】指标真实有效,即服务可用率,故障率等指标的归属责任方式明确的

【2】指标同步时,明确指标状态、流程,避免数据在同步过程中变为2份数据。一般也采用ETL离线同步的方式,结合全量表同步与增量表同步。

企业如何检测告警指标异常?

随着业务量的增长,告警数据也变得愈发庞大,告警信息大爆发,告警通知不断,更会在无形中增加运维人员的工作难度。指标告警的阈值太高会导致漏报遭到投诉、阈值太低会导致噪音太多错过真正的异常。听云北冥告警平台采用AIOps将人工智能应用于告警领域,提供告警一站式服务与事件智能化运维。告别传统指标固定阈值、基线阈值不准确问题,根据指标波动的变化,比如周期、趋势、时间模式等因素来综合判断指标的波动变化,系统自动优选合适的异常检测算法,针对指标动态变化数据进行实时检测,识别出真正的异常行为触发告警,提高告警准确率。

关于 CIsco 告警日志分析

很明显是生成树在搞怪嘛...
一个高速交换网络是否稳定取决于生成树的变化.
本来fa0/1属于vlan190.但是有一个vlan540接入告警分析指标模板了.交换机的生成树认为网络出现变化.就立即阻塞了fa0/1.并且提示告警分析指标模板你vlan540不是本来就有的VLAN.

华为设备有如下告警,期间并没有修改配置,请分析大概是什么原因

磁盘空间告警
告警信息:IGWB介质空间不足。
告警分析:主用IGWB在剩余磁盘空间小于15%的时候就会出磁盘空间告警,省公司要求话单保存时间:原始话单15天(D盘),格式转换后的话单15天(E盘),最终话单90天。
告警处理:删除部分格式转换后的话单(E:\backsave\Second\X3KM\),剪切部分最终话单到应急工作站(暂时),建议增加IGWB硬盘空间。
02备用IGWB磁盘空间不足
故障现象:备用IGWB磁盘空间不足
故障分析:备用IGWB是实现话单双备份的组成,并且如果备用IGWB磁盘剩余空间过小,主用IBWG异常的时候将无法倒换。
故障处理:清理备用IGWB磁盘空间。
03单板故障
告警信息:例如WSMU 板故障、单板CPU自检故障。
告警分析:无
告警处理:1.复位 2.拔插 3.更换
04电源故障
告警信息:-48V 电压过高告警。
告警分析:
告警产生原因:
· 动力进行例行放电测试,致电压临时过高
· 电压已恢复正常,但告警未自动消除,出现假告警
· 电压过高导致。根据指令DSP PDB可以查询到系统的电压正常范围是-42V~-57V,经常观察如果电压过高后,告警会在电压降到-54V的时候消除。如果告警长时间未自动恢复,可以用万用表测电压,看是否在正常范围内,如果电压已正常,可以手动把电压的门限值进行调高,使告警恢复后再把门限值调到正常范围内。
告警处理:
1.联系动力专业,确认是否在进行电池放电测试。如是,在测试完成后观察告警是否消除
2. 根据指令DSP PDB可以查询到系统的电压正常范围是-42V~-57V,经常观察如果电压过高后,告警会在电压降到-54V的时候消除。如果告警长时间未自动恢复,可以用万用表测电压,看是否在正常范围内,如果电压已正常,可以手动把电压的门限值进行调高,使告警恢复后再把门限值调到正常范围内。(现在配电框监控板默认的告警上限目前定义为57V,产品设置时,可在此基础上加3V,设置为60V比较合适。
MSOFTX3000可以通过软调修改电压告警上限。
软调命令如下:
STR SFTD: LT=MN, MN=2, PID="166", CTRL="36", PM0="1", PM1="60", PM2="42";
STR SFTD: LT=MN, MN=2, PID="166", CTRL="36", PM0="2", PM1="60", PM2="42";)
3.观察一段时间,如告警不会自动恢复就联系动力室处理。
05IGWB倒换
告警信息:iGWB双机倒换
告警分析:双机倒换通常是主用IGWB异常引起,可能原因:磁盘空间不足,重要目录被改动,网络故障,进程异常。
告警处理:清理磁盘空间,恢复被改动目录,检查处理网络,重启IGWB进程。
06传输故障
告警信息:E1端口故障或信号丢失。
告警分析:无
告警处理:自环检测,通过LOP E1对本端端口进行软件环回,如正常则表示单板端口硬件正常,再在各段DDF架端进行环回测试,逐段排除线缆原因,如是本端问题则重做线缆接口、换线或者换板,如是传输问题则转传输室处理。
07IGWB内存过载
告警信息:iGWB 内存过载。
告警分析:IGWB上运行的主要进程有om_proc.exe,ap_proc.exe,cfg_proc.exe,cls_proc.exe,knl_proc.exe。主要检查这些进程有没有大量占用内存空间。现在SZS09,SZS12的om_proc.exe进程占用大量内存不释放。
告警处理:暂时的处理办法是重启om_proc.exe,最终解决方法等待华为工程师补丁解决。
08IGWB备份失败
告警信息:iGWB备份连接失败。
告警分析:IGWB备份有两份,都是从主用IGWB以FTP方式备份到备用IGWB。一份保存在备机的E:\billforbs,保存1000个文件,通过smartback实现;一份保存在E:\ finabill_bak,保存时间为90天,通过igwb.ini文件的配置信息实现。
告警处理:检查smartback备份的路径和用户名密码是否正确;重启smartback软件;重启IGWB进程。
09网络故障
告警信息:BAM到主机连接中断、TCP链路故障。
告警分析:故障可能原因lanswitch异常,网口松动,网卡运行异常。
告警处理:拔插BAM主机网线,拔插lanswitch端口网线,禁用启用网卡,重启BAM。
10MTP、SCCP、M3UA故障
告警信息:M3UA路由传输禁止 路由不可用;MTP链路故障/MTP 链路定位失败;SCCP目的信令点禁止。
告警分析:故障可能原因传输故障引起,配置数据变更,链路负荷过高。
告警处理:检查传输,检查数据配置信息,检查是否为垃圾数据产生的告警。
11话单文件校验错误或话单文件丢失
告警信息:无
告警分析:可能是话单文件传送到计费中心出错,需要重传计费文件
告警处理:重传相应计费文件
12更换单板时程序加载不成功
告警信息:单板程序加载不成功
告警分析:可能原因:1.单板加载软开关未打开.2. 加载文件丢失
告警处理:1.通过MOD LSS修改单板加载软开关,设置为”程序不可用,数据不可用 ,数据可写, 程序可写”,加载完成修改为” 程序可用,数据可用,数据可写,程序不可写”
2.主机加载文件都存于BAM的D:/data 目录下,在此目录下查找所要加载的单板的程序文件,如未找到,说明文件因其他原因丢失,通过在其他同类型同版本局上能找到该单板的程序文件,将文件拷贝至该目录下,重新复位加载单板。
13硬盘故障
故障现象:故障磁盘灯亮红灯。
故障分析:华为软交换的硬盘都采用磁盘阵列方式对数据进行保护,硬盘支持热拔插,坏一块磁盘不影响系统运行,但是要尽快安排更换。
故障处理:更换硬盘。
14主机时间偏差
故障现象:检查主机系统时间发现网元的主机时间和北京时间相差较大。
故障分析:主机系统时间就是话单产生时间,华为认为偏差在正负5秒是正常的,超过这个范围需要校正。
故障处理:主机时间和BAM时间同步,更正其中一个就可以达到校正的目的。可以通过DSP TIME查看系统时间,通过指令SET TIME修改,或者直接改BAM的系统时间。
15CRC校验错误
故障现象:CRC校验错误告警。
故障分析:交换机数据与BAM机数据不一致,可能是由于工程引起的故障。
故障处理:通过SND SPD指令对校验出错的数据表进行强制发送,再次执行STR CRC进行CRC校验
以上,就是给大家整理的华为设备故障分析与排除方法,希望对你能有所启发。

通达信怎么建立指标模版

先设好K线窗口个数,再排列好想要的指标,然后:

"右键"--"指标模板"--"当前组合另存为模板"

指标指衡量目标的单位或方法。股票指标是属于统计学的范畴,依据一定的数理统计方法,运用一些复杂的计算公式,一切以数据来论证股票趋向、买卖等的分析方法。主要有动量指标、相对强弱指数、随机指数等等。由于以上的分析往往需要一定的电脑软件的支持,所以对于个人实盘买卖交易的投资者,只作为一般了解。但值得一提的是,技术指标分析是国际外汇市场上的职业外汇交易员非常倚重的汇率分析与预测工具。新兴的电子现货市场也有类似一些指标的运用,电子现货之家中有所介绍。 关于告警分析指标模板和告警等级的划分并说明的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。 告警分析指标模板的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于告警等级的划分并说明、告警分析指标模板的信息别忘了在本站进行查找喔。
上一篇:修改Docker镜像默认存储位置的方法
下一篇:用 Sigil 在 Linux 上创建和编辑 EPUB 文件
相关文章

 发表评论

暂时没有评论,来抢沙发吧~