告警全量分诊思路分析，企业如何实现良好的告警管理流程？

知梧 505 2023-06-10

本站部分文章、图片属于网络上可搜索到的公开信息，均用于学习和交流用途，不能代表睿象云的观点、立场或意见。我们接受网民的监督，如发现任何违法内容或侵犯了您的权益，请第一时间联系小编邮箱jiasou666@gmail.com 处理。

本文关于告警全量分诊思路分析，企业如何实现良好的告警管理流程？

一、简介

海量告警数据分析已经成为安全运营中心的头号问题，为了实现对高危告警的识别的，安全运营中心普遍都有一套自己运营维护的“高置信规则”列表，通过大量的专家经验不断对该列表进行更新，最终只需要研判在该列表内的告警的即可。该方式一方面能部分解决“告警疲劳”的问题，将待研判告警压缩到人工可处理的量级，另一方面通过不断地修整完善，该列表也能覆盖大部分高危攻击行为。

但是该方式依然有俩个比较严重的问题：

残余风险。高置信规则列表之外的告警不会被运营人员分析，遗留了残余风险，根据一次内部红蓝对抗的经验，攻击队产生的告警都在该列表之外，而这部分告警又不会被分析，造成了风险残余。
依然费时费力。如图1所示，高置信度规则列表涉及的告警依然包含大量的噪声、误报，需要人工处理。

为了解决高置信度列表带来的上述问题，本文认为：一方面，告警应该进行全量分析，以免遗漏重大风险，另一方面，误报应该通过自动化的方式进行去除，最后低层次的告警应该通过一定的方式进行融合，在压缩告警数量的同时，提供更多的高层次信息。

二、告警全量分诊要点分析

2.1 告警组成分析

类似医院的分诊，只有了解人体的组成部分，才能分门别类的设置各种诊室一样，为了实现告警全量分诊，就必须知道告警的组成部分。

我们将告警大致分为如下4类：

误报。造成误报的主要原因有：正常业务（如公司业务）、正常internet访问（如微信聊天）、爬虫等。
低危告警。基本无任何威胁的告警，如：对外的渗透测试、来自于科研机构、安全厂商的漏洞扫描等。
中危告警。一定威胁的事件，如：僵木蠕、低级的攻击者发动的攻击等，该类型的事件绝大部分都是失败的攻击，攻击成功的可能性很低，我们姑且认为是中危险事件。
高危告警。如：APT攻击、已经或者将要成功的渗透测试等。

需要特别说明的事，以上分类都是相对高层级的分类，与原始告警类型并无显示相关性，需要借助一定方式进行识别。

2.2 要点分析

告警分析实际上是一种后处理技术，如图2所示，告警来源于流量又高于流量，但依然包含流量中的涉及到的各种网络行为。网络流量分析中，我们经常会使用各种数据分析的方法，如：分类、聚类、异常检测等，那么流量分析中的各种算法如何有机地作用到全量分诊当中呢？笔者在这里分析出如下要点。

图2. 告警处理在安全安全运营流程的位置

要点1：误报过滤

实际上大量误报可以通过自动化的方式进行过滤，如：爬虫、内部常用的业务等，我们分析4种主要误报类型以及识别方法。

无法分类的告警

无法分类的告警由多种形式，如：无法关联分析的加密流量告警、无法关联分析的登录类告警、信息缺失类告警。之所以加上无法关联分析的限定条件是因为大部分此类告警可以通过关联分析进行分类。如：10：00~11：00 之内出现100条SSH登录，但是前10天内，每天都有这种现象，我们可以大概率认为该行为不是攻击行为造成的，如：误配置。

对于此类告警，由于组成多样，检测算法也会不尽相同，如可以通过基于熵值的加密检测算法检测加密告警。

正常业务访问

这里的正常业务指企业内部或者对互联网提供的正常业务，这些业务往往复杂性高，不可避免会匹配一些IPS规则，触发大量误报。

由于正常业务千奇百怪，检测方法也应做到不尽相同，重点在于捕获正常业务告警间的共同特性。如：对于payload较相似的业务，可以基于载荷进行检测；对于payload差别较大，但URL比较固定的业务，可以通过URL建立基线进行检测等等。

正常通信

这里的正常通信与正常业务有一定区别，指的是企业对互联网的正常访问行为，如对:百度、微信等的通信。

对于互联网场常见的业务，可以通过构建特征库、IP库的方式进行检测，相信也不会太过于繁琐。

爬虫

爬虫是一类比较特殊的行为，在这里我们认为该行为风险性低，当做误报处理。

由于爬虫在行为上具有一些通用特征，如请求频率高、主要访问静态资源等，可以基于响应包内容、请求的资源类型、请求频率等特征设计爬虫检测算法。

要点2：攻击聚合

同一攻击行为往往会触发大量告警，若能将这些告警统一聚合起来并归因为高层的攻击事件，便可进一步减少待分析告警数量，提升运营效率。

这里我们总结主要的4种攻击场景，占据了绝大多数告警数量。每种场景都需要设计检测算法进行检测。

漏洞扫描

可以根据不同的扫描行为对扫描告警做聚合。如通用扫描一般由同一个源IP向同一个目的IP测试大量不同漏洞，专项扫描一般针对某个或某几个特定漏洞对一定范围内的主机进行扫描等等，并且扫描往往具有一些通用特征，如：高失败率、高频等，可以设计扫描检测算法将告警中的扫描行为做高层聚合。

爆破

爆破行为也有较明显的特征，如：频率高、高失败率、用户名变化多、密码变化多等，可以设计爆破行为检测算法将告警中的爆破行为做高层聚合。

渗透测试

渗透测试过程中，经常采用已有工具，如sqlmap等，自研工具对目标网站进行渗透，触发大量告警，需要进行融合。可以根据渗透测试告警的特征，如:URL不同、参数不同、大量尝试等特征设计渗透测试检测算法。

僵木蠕告警

可以基于已有的僵木蠕特征库进行检测。

经过高层聚合，告警中大量的攻击告警被归并，形成基本可运营的、直观的攻击事件。这种形式对运营人员更友好，并且进一步降低了底层告警的数据量，提升运营效率。

要点3 告警聚合

告警聚合是IDS告警研究中的常见话题，目标是：将同质的告警融合到一类中，达到类中相似，类间不同的效果。与攻击聚合不同的是，告警聚合不针对特定攻击类型，是纯聚类算法。

目前业界主要采用“Alert throttling”的方式进行告警聚合，即在一定时间范围内（如：15min），看某几条告警来判断这段时间内所有告警的属性，显然这种仅按照时间进行告警聚合的方式存在一定问题，而相关的研究在学术界从未间断，如2022年的一篇安全文章以告警类型用深度学习的方法进行告警聚合[1]。

笔者认为，告警聚合是一个复杂任务，跟网络行为的不同，要考虑的属性也不尽相同，因此需要结合多种告警属性设计聚合算法：如时间、告警类型、IP网段、payload等。

三、总结

本文指出目前安全运营中心普遍基于“高置信规则”的运营方法并不完善，并提出全量分诊的设想，勾勒了全量分诊中可能涉及到的功能要点，目前这些要点正在也在内部研究验证。欢迎读者朋友交流心得、批评指正。

企业如何实现良好的告警管理流程？

企业的IT系统建设是一个聚沙成塔的过程，伴随业务规模的不断扩大，IT系统越来越多、IT架构的复杂度呈指数级增长，运维部门承受着巨大的管理压力。在如此庞杂的环境下，数据之间紧密相连，一个指标的变化，可能引发一系列的告警连锁反应。这就需要对离散的IT监测系统和海量的告警数据进行统一的采集、处理和呈现。

充满挑战的运维告警管理

相信每一个运维小伙伴都被这些问题困扰着：如何抑制告警风暴？如何保障重要告警不漏不丢？如何快速地甄别根因告警？如何沉淀告警处置经验？如何快速恢复业务运行？那么，到底是什么原因给告警管理带来如此之高的复杂度呢？

1. 千丝万缕的应用系统关系

每有一个用户访问应用系统，应用都需要调用链路上多个IT单元，而这其中，有一个环节出现问题，都有可能导致业务故障。而系统中任何一个监控对象的告警都可能引发其他多个相关策略的告警，这些告警的相关度高达90%以上。

2. 告警策略设置难以找到平衡点

过高的告警阈值，容易漏掉系统运行故障；而过低的告警阈值，又会带来大量的无效告警，影响运维团队的工作效率。同样，告警检查周期的长短设置也存在类似的问题。往往运维团队为了不遗漏告警，而提升告警的灵敏度，导致告警重复率高达60%。

3. 告警响应不及时

一个告警问题往往不是1个运维人员可以解决的，大部分的团队都是多个人参与同一类告警的处理，而同一个告警就会被推送到团队中的多个运维人员的手中。但是，通常在一些特殊时段只有一个值班人员负责处理告警，这就给其他团队成员生活带来了巨大的干扰。因为缺少高效的分派和排班管理机制，加上大量重复的无效信息，这将会在一定程度上造成告警处理的延时和遗漏，从而引发告警风暴。

告警管理的关键因素

如果没有一个高效的管理告警的办法，那只会大大降低运维人员的工作效率，导致问题处理不及时，最终影响到业务。那么，如何做到告警的智能高效管理呢？这就不得不提到告警管理有以下 6 点主要因素。

1. 时间：发生告警要及时通知，运维人员的响应速度和处理效率都与告警通知的时间息息相关；

2. 人员：所有需要处理问题，需要指定相应的运维人员参与；

3. 信息：发送的告警信息需要重点突出问题内容，以方便运维人员快速了系统问题；

4. 过程：从告警的发生到告警修复完成的全过程，至少要流转2次；

5. 知识：每一次处理问题需的经验和解决方案都是宝贵的知识储备；

6. 问题：在告警处理过程中极易产生告警风暴，当然告警风暴的产生除了与业务系统不稳定、多个监控工具等客观因素同时是与处理告警效率有直接的关系。

睿象云智能告警平台 Cloud Alert 的告警闭环管理来帮您

告警的主要处理流程首先将用户的多个监控平台接入到智能告警平台 Cloud Alert（以下简称: CA）中， CA 的数据处理引擎会对接入的数据进行标准化处理，自动去重处理，然后进行存储，并在后面增加压缩规则的处理并随时可查。最终通过自定义的分派策略通知到用户、系统或者第三方协作平台中。最终实现【开放式一体化管理】【自动化事件分派响应机制】【自研机器学习算法直达事件根因】【多渠道通知必答移动端快速处理】的告警管理模式。

睿象云智能告警平台亮点功能详解

1. 告警的跨平台统一管理

CA平台可通过多种方式，接入现今主流的 100+ 监控工具，可轻松对接来自第三方监控工具的各种告警事件。一旦告警发生时，只需要在CA平台内处理告警即可，告别在各个监控工具之间来回切换的工作模式。

2. 自定义通知分派策略

· 不同级别的告警可通过的不同方式进行通知提醒，例如：严重告警电话通知，其他级别告警通过短信或者微信进行通知；

· 分派策略灵活多样：根据告警级别和内容自定义分派条件，并将告警与人员、团队和排班计划相结合，实现告警的动态路由，确保告警在第一时间得到解决。超时的未认领告警会自动触发升级策略，通过更高效的通知手段，如语音电话，直达上级责任人，全方位减少告警的遗漏。

· 多平台协作支持：通过告警对接到钉钉、企业微信、倍洽、简聊等工具，通过团队协作的方式快速处理问题，极大地提升故障的处理效率。

· 多维度告警分析：CA支持告警回溯与多维分析，可以查看历史告警趋势、成员工作效率、告警内容top分析、告警智能分类分析等。整合企业全部告警信息，通过告警量趋势、告警分类、告警级别、MTTA、MTTR等多维度指标为系统连续性保障提供更多洞察。

以上就是小编为大家整理的关于告警全量分诊思路分析，企业如何实现良好的告警管理流程的相关内容。

国内(北京、上海、广州、深圳、成都、重庆、杭州、西安、武汉、苏州、郑州、南京、天津、长沙、东莞、宁波、佛山、合肥、青岛)睿象云软件分析、比较及推荐

标签：告警管理告警方法智能告警处理

暂时没有评论，来抢沙发吧~