【赛题解读】BDCI进行时:基于UEBA的用户上网异常行为识别

发布于 2021-10-11 18:50

嘿嘿~~~

今年的CCF大数据与计算智能大赛

(简称2021 CCF BDCI大赛已上线三周啦

各赛题都已陆续揭开神秘面纱~

也是时候发布赛题解读

给大家解一下“毒”了!

 

今天,汤汤就先给各位参赛小伙伴

献上数据算法赛道的一大赛题

「基于UEBA的用户上网异常行为分析」

的多维度超详细赛题解读

希望能给还困于解题思路的小伙伴儿

提供更多灵感和启发吖~

2021 CCF BDCI 数据算法赛道

赛题名称:基于UEBA的用户上网异常行为识别

出题单位明朝万达

赛题链接:http://navo.top/n6zeIv

赛题背景

企业应对内部的敏感数据泄露问题,安全信息及事件管理(Security Information and Event Management,SIEM)是一种应用最为广泛采用的数据防泄漏技术。该技术是安全信息管理(SIM)和安全事件管理(SEM)的结合体,能够为企业内部所有IT资源产生的安全信息进行统一的实时监控、历史分析。SEIM主要是由采集层,存储层,计算层,输出层四部分组成。采集层主要用来采集所有网络安全信息源,并对数据集进行简单处理,转化为统一的格式,便于存储。存储层主要功能是存储采集的原始数据和计算分析完成的结果,并为后续的分析与可视化展示提供数据支撑。计算层,是SIEM中最为重要的一层,包括规则匹配计算,算法计算,流量分析计算等多种计算分析模型。输出层主要是将计算层分析的结果进行多种输出方式实现可视化展示,企业可以根据不同业务部门的不同需求选择合适的输出方式。

基于日志分析和规则匹配技术,SIEM系统并不断融合关联分析等其他方法,对安全事件进行监视、聚合、关联和报告,在防止企业内部敏感信息的泄漏中发挥着重要的作用。然而,随着数据泄露途径的增加和应用场景的多样性,SIEM也存在如下问题:

  1. 当企业内部的日志事件符合预先设定的规则时,SIEM能够快速的做出报警,但其警报的有效性往往取决于规则制定的合理性。不合理的监控规则,会大大增加数据泄露事件的误报数量,导致安全运维中心被误报信息所淹没。

  2. SIEM监控规则的制定是一件非常复杂和耗时的工程,随着数据泄露方式和渠道的日新月异,静态的规则实现数据防泄漏始终慢人一步,维护与革新企业内部不断增加监控规则将会产生巨大经济消耗。

  3. 企业内部具有高权限的管理人员,能够直接接触到核心的敏感数据,其主动或者无意的操作,更易发生数据泄露现象,而SIEM难以有效地处理此类情况。

  4. 日志事件警报数量的增加,促使企业扩充安全运维中心的人员数量和增加人员安全培训成本,这无疑增加了企业的经济负担。

  5. SIEM提供的海量警报中掺杂着准报和误报,却无法完成对事件风险程度进行划分,这可能造成真正的数据泄露事件无法及时处理,最终造成巨大的安全隐患和经济损失。

综上所述,基于规则的SIEM数据防泄漏技术对于数据泄露事件的精准预报、动态的数据泄露途径与方式,特殊员工的行为监控,实时的行为预测与风险评分,难以达到现在企业对于数据安全的要求。因此,对于防止内部敏感数据发生泄漏,企业迫切需求一种能够弥补传统SIEM的数据防泄漏技术,用户实体行为分析技术应运而生。

出题单位介绍

明朝万达成立于2005年,是中国新一代信息安全技术企业的代表厂商,专注于数据安全、公共安全、云安全、大数据安全及加密应用技术解决方案等服务。凭借在数据安全领域取得的优异成就,明朝万达于2019年获得中央网信办背景中网投、国家发改委背景国投创合联合投资,并于2020年获得中国电科集团(CETC)战略投资。

基于“动态数据安全,数据全生命周期管控”的产品理念,明朝万达始终以守护用户数据价值为己任,致力于让安全真正服务于业务发展。历经十余年的发展与积累,明朝万达现有员工600余人,总部位于北京,在上海、广州、成都、西安、贵阳、天津、武汉、南京、无锡、长春等地设有分支机构。明朝万达客户已覆盖金融、政府、公安、电信运营商、能源、设计院所和研发制造业等领域,签约用户超过3000家。

赛题重点

  1. 从海量无标签的日志数据中构建用户上网行为基线,要求基线能准确刻画用户实际行为。

  2. 从海量无标签的日志数据中构建上网行为评价模型,要求能准确评价单个上网行为与基线的偏离程度。

解题思路举例(不限定)

  1. 首先海量无标签数据场景,只能选择无监督算法进行求解。

  2. 算法除了要刻画是否异常,还需要刻画异常程度进行排序,因此输出结果是一个连续值比较符合要求,因此它应该是一个生产式模型,而不是一个判别式模型。

  3. 异常行为分析的定义,对正常行为建模,不在正常范围之内的都是异常。

  4. 使用同比和环比的方法构建行为基线,同比是同一个人的不同时间的行为聚类,找到聚类中心作为基线。环比是根据同一个部门不同的人的行为进行聚类,聚类的中心作为基线。

  5. 使用相同的特征处理对单个行为进行处理,得到单个行为特征向量,计算单个行为特征向量到极限的距离来刻画异常程度(例如欧式距离)。

常见问题

Q1:为什么不使用有监督?

赛题来源于实际生产应用场景,企业实际应用场景中一类操作(例如发送邮件、上网、传输文件等)日志每天大概平均5万条,操作种类也很多不可枚举,人工标记数据工作量大,容易出错,不具备可操作性。因此需要使用无监督算法来解决。

Q2:要求无监督的解决方案,为什么训练集有标签?

赛题和数据是北京明朝万达有限公司应CCF大赛平台要求提供,也需要满足公平公正公开原则进行赛题准备和数据准备,因此训练集提供了参考标签值,正向引导选手解决问题的思路。无标签数据才是实际场景具备的条件。

Q3:数据集里面的标签ret的值怎么来的?

首先经过机器预处理,可视化展示,业务专家校准之后提供的。

Q4:无监督的输出结果是分类标签,为什么测试集的结果要求是连续值?

在背景介绍里面有实际场景面临的问题描述,异常行为检测结果参杂着准报和误报,却无法完成对事件风险程度进行划分,工作量增大,而人力资源有限,需要按异常行为排序进行稽核处理,优先处理异常程度较大的安全事件,尽量避免较大的数据泄露造成的经济损失。

Q5:为什么使用RMSE作为评分规则?

这个问题有两层疑问,一是字面意思,这个建议自己去检索RMSE相关资料了解即可;二是,测试集里面的ret是否有效,参见问题3。

Q6:能不能给出行为基线(baseline)?

抱歉,这个暂不能提供。用户异常行为分析的定义,构建正常行为基线,所有不符合正常行为的即为异常。正常行为建模得到的是基线,基线是核心成果之一,其本身就是需要求解的核心问题之一。

评价方法

本赛题的评价指标为均方根误差(Root Mean Square Error,简称RMSE),它是异常观测值与真实值偏差的平方和观测次数N比值的平方根,RMSE的计算公式如下: 

式中:

  • RMSE — 均方根误差;

  • N — 样本数量;

  • X — 用户行为评分;

  • 线上排名得分Score值计算方法如下(得分越趋近于1排名越靠前)

本道赛题的解读就到这里喽

解完“毒”的选手们

恢复完体力&脑力

就快行动起来去码字解题叭

看好你哟~~~

—End—

星标置顶汤汤

第一时间接收

实用干货和赛事动态~

本文来自网络或网友投稿,如有侵犯您的权益,请发邮件至:aisoutu@outlook.com 我们将第一时间删除。

相关素材