使用基于用户行为的多模糊分类器的内部威胁检测（User behavior based Insider Threat Detection using a Multi Fuzzy Classifier）

最新推荐文章于 2024-09-23 10:10:27 发布

一智哇

最新推荐文章于 2024-09-23 10:10:27 发布

阅读量2.1k

点赞数

分类专栏：隔离网络文章标签：威胁分析

本文链接：https://blog.csdn.net/weixin_43883602/article/details/123708987

版权

隔离网络专栏收录该内容

2 篇文章

订阅专栏

User behavior based Insider Threat Detection using a Multi Fuzzy Classifier

使用基于用户行为的多模糊分类器的内部威胁检测
摘要：内部威胁是组织安全漏洞的一个重要来源。许多研究使用机器学习和深度学习方法进行内部威胁检测，这些方法依赖预先定义好的规则，需要明确的特征工程，同时具有较高的误报率。为了克服这些问题，本文的工作重点是引入了一种基于用户行为分析的增强内部威胁检测方法。这种方法具有较低的误报率，更快的检测，更高的准确率。
实现这种增强是因为:

使用数据预处理步骤去除噪声;
利用等距特征映射最小化高维空间特征提取时的信息损失;
使用基于内容的特征增强特征集，以进行最终分类;
利用帝企鹅算法对特征选择进行了有效的开发和探索;
并利用多模糊分类器并行处理多种特征进行快速处理。
在CMU-CERT v4.2数据集上使用8种不同的性能评价指标对该方法进行了测试。实验结果表明，该方法优于现有方法。
关键词：用户行为分析；内部威胁检测；等距特征映射；帝企鹅算法；术语频率逆文档频率；多模糊分类器。

1. 背景

（1）会议/刊物级别

Multimedia Tools and Applications, 2022: 1-31.
CCF None

（2）作者团队

Malvika Singh ， BM Mehtre，S Sangeetha
在这里插入图片描述

（3）论文背景

内部威胁是造成组织安全风险的一个主要原因。一般来说分为“冒充者”和“叛徒”，这两类都会对组织造成危害。他们是通过从事恶意行为/活动而造成伤害的组织的雇员/用户。**组织中的用户行为可以是非恶意的，也可以是恶意的，用户的恶意行为定义为内部威胁[19]。**根据古鲁库尔的内部威胁调查报告[9]，今天68%的组织容易受到内部威胁。因此，用更少的威胁检测时间和更高的威胁检测精度来检测内部威胁是至关重要的。为此，在本文中，我们提出了一种改进的内部威胁检测方法。

通常，有两种检测内部威胁的技术。一种是基于规则的特征检测，另一种是基于行为的异常检测。优先级用于检测已知的攻击或威胁。它需要定义规则来匹配当前活动的签名和以前存储的攻击签名。然而，后者取决于特定用户或实体的行为。为了根据用户行为模式中的异常情况识别内部威胁，必须首先为每个用户的通常行为模式建立一个常规使用基线。然后，将当前用户行为活动与之前创建的基线进行比较分析。因此，如果发现当前活动偏离了之前建立的基线，那么该特定用户及其行为就会被标记为恶意行为。因此，使用这种方法很容易检测到新的或未知的威胁。由于这一意义，在提出的工作中考虑的检测方法类型是基于用户行为的异常检测。用户行为定义为用户在一段时间内对一个实体(指定的系统、服务器、应用程序、网络、数据库等)执行的一系列操作。

本文使用公开可访问的内部威胁数据集CMU-CERT v4.2对所提方法进行了测试，测试参数包括:accuracy、precision、recall、fmeasure、aucc -roc、threat detection rate、false positive rate和error rate[7]。为了完成这一任务，我们首先执行数据预处理(清理、缩放和缩减)，以帮助生成一组丰富的特征以供进一步处理。对于内部威胁检测，特征处理部分是最重要的，因为它有助于准确预测内部人员。根据文献，Isometric Feature Mapping (ISOMAP)[10,32]和Emperor Penguin Algorithm (EPA)[8]分别是降维和优化的成功方法。据我们所知，这是第一个提出基于ISOMAP和EPA的基于用户行为的特征处理(提取和选择)方法，以有效地检测内部威胁的实例。

ISOMAP是一种非线性的降维算法，它能够将一个数据集X映射到一个新的数据集Y，同时在多维特征空间中尽可能多地保留数据集X的原始几何和全局结构。因此，它优于现有的其他算法，因为它提供了更少的计算负载，而且对数据的局部结构的任何变化都不太敏感。在这项工作中，它提取基于时间的用户行为特征(用户执行特定活动的时间戳)、基于频率的用户行为特征(用户执行任何活动的次数)和基于内容的用户行为特征(文件、http和电子邮件内容)。同时，在选择最优特征时，EPA，一种仿生优化算法，被认为更稳定和鲁棒。与其他优化算法相比，该算法具有较好的全局寻优性能和较强的局部挖掘能力，具有显著的优化收敛性能。因此，我们提出了一种ISOMAP和EPA结合的方法，能够更直观、更快、高效的特征处理方式。它有助于增强和获得丰富的特征集，以便进一步处理。由于该方法不需要进行显式特征工程，因此减少了丢失相关特征的机会，从而减少了误报的数量。

除此之外，我们还计算Term Frequency - Inverse Document Frequency (TFIDF)评分值作为来自每个用户的文件、http和电子邮件内容的重要信息，以改进最终分类[21]的特征集。最后，根据前面步骤[2]计算的特征，使用多模糊分类器(MFC)将用户分为非恶意用户和恶意用户。该分类器不是基于严格的二进制数(0或1)对用户进行分类，而是判断用户是恶意用户还是非恶意用户。这个分类基于用户关联的成员值，在每个类中:非恶意的或恶意的。本工作采用多台模糊推理机实现。

2.相关工作

已有大量文献使用各种方法来检测内部威胁，如统计分析[12,15,31]、机器学习[27]、深度学习[29]和进化计算[22]。然而，这些方法都有一定的局限性，需要解决这些局限性，以便有效地检测恶意内部人员。在[3]中，作者介绍了一种新的检测内部威胁的方法，称为RADISH。它用于发现异构数据流中的差异，从而使组织的资源不被浪费。它适用于所有规模的组织，但基于单个用户检测异常可能很复杂。在[17]中，使用基于距离的方法(Damerau Levenshtein distance、cos distance和Jaccard distance)来识别用户行为的任何变化。它基于三个距离向量的综合得分，检出率为80%(0.8)。它比较用户从(周)n+1到当前(周)n的操作。在[4]中，作者关注在线通信系统的异常用户行为分析。为此，我们使用了一个无监督学习模型来描述一个名为TargetVue的新型可视化分析框架。对于用户行为跟踪，根据用户的反馈(每日或每周)对异常检测模型进行微调至关重要。[1]中提出了一种基于风险的访问控制模型，即基于internet的访问控制(IBAC)。它描述了一个系统，该系统拒绝恶意内部人员，准确率为100%，但接受率为10%，因此精度相对较低。

内部威胁检测还可以通过使用不同的机器学习模型从用户的日常活动中分析和学习行为语言来进行。在[18]中，作者分析并将用户行为分为恶意行为和非恶意行为。然而，他们只使用了基于时间戳的特性。他们的方法需要非常多的训练数据，并且只在某些情况下运行良好。由于这种局限性，需要一种深度检测方法来快速处理各种行为特征。在[30]中，引入了一个用于内部威胁检测的网络破坏模型(神经网络)。在这里，作者将威胁分为三种类型:内部间谍、内部网络欺诈和网络破坏。尽管机器学习方法比统计方法更能覆盖各种安全威胁，但它们仍然缺乏有效的特征处理，因为它们需要显式的特征工程。

深度学习方法也常用于检测内部威胁。在[29]中，作者使用了长短时记忆(LSTM)来根据用户之前的行为预测用户的行为语言。然而，他们只使用基于时间的功能来识别内部威胁。在[16]中，作者使用深度自动编码器(DAE)创建了一个内部威胁检测模型。该方法仅利用TF-IDF评分对用户的http内容进行特征提取。在[20]中，作者将重点放在数据安全性上，利用LSTM对用户行为属性进行分类，以获得较高的威胁检测性能。类似地，在[29]中，使用神经网络自动检测用户的异常行为。在[24]中，利用LSTM (long short term memory)和CNN (convolution neural network)构建深度神经网络。这里使用LSTM学习用户活动的语言，然后使用CNN将其归类为正常或异常。然而，CNN在训练数据量大的情况下工作的很好。

在[6]中，内部威胁是使用基于时间的特性根据预定义的威胁场景确定的。虽然他们的方法不需要显式的特征工程，但计算成本高，需要大量的训练数据才能准确预测恶意内部人员。在[14]中，作者使用了一种特殊的设备部署，以检测基于进化算法[22]的内部威胁。在[28]中，蜜罐传感器用于检测内部威胁。然而，使用这种设备增加了成本，并需要频繁的手动支持。在[25]中，作者实现了一个用于内部威胁检测的模糊分类器。然而，他们考虑的分类特征较少。在[2]中，作者还利用遗传算法实现了一个模糊分类器，以减少误报。虽然遗传算法更耗时，而且他们只考虑了基于时间的特征。

以下是作为文献调查的一部分进行的研究的相关工作纲要：

利用统计分析方法，可以在短时间内迅速查明内部人员的恶意行为。然而，它们依赖于预定义的规则，因此无法检测到新的攻击/威胁模式。
为了克服统计分析方法的缺点，机器学习技术被用来检测潜在的内部威胁。这些方法独立于预定义规则的要求，能够快速检测到新的或未知的威胁。然而，它们需要明确的功能工程。由于这个缺点，丢失相关特征的几率很大，导致误报率很高。
为了克服这一差距，最近的研究集中在利用深度学习技术来有效地识别恶意内部人员的活动。这些方法都是无需预定义规则和显式地特征工程，因此，它们能够更好地快速检测恶意活动，并减少误报。然而，由于深度学习算法需要大量的训练数据才能很好地执行，因此计算成本高，耗时长。
除了这些限制外，大部分的工作使用机器和深度学习方法，没有数据预处理步骤，只考虑基于时间的特征。他们根据清晰的二进制值(0:非恶意或1:恶意)对用户进行分类。目前，这些方面在大部分的工作中都被忽略了，我们认为考虑这些方面可以获得更高的准确率，更少的误报和更高的威胁检测率。

3.方法论

3.1 模型概况

图1说明了提出的方法。它分为以下模块:数据预处理，特征提取，TF-IDF评分计算，特征选择，分类系统。下面给出了建议方法的伪代码。
在这里插入图片描述

3.2 数据集概述

用于训练和测试该方法的数据集为CMU-CERT r4.2[7]。它是使用Python IDLE 3.6.6实现的，因为它广泛支持许多库和第三方模块。据我们所知，CMU-CERT数据集是唯一一个公开可访问的基于用户行为的内部威胁数据集。因此，本文提出的方法与使用相同数据集的现有方法进行了比较。CMU-CERT数据集的统计数据如表1所示。用户的行为特征是数据收集的主题。它由在18个月的时间内收集的1000名用户的活动组成。这些用户活动由登录、设备、文件、http和电子邮件文件组成。该数据集包括6个.csv文件，反映每个用户行为的各个方面。它还包含一个LDAP文件夹，其中包含所有用户18个月的.csv文件，包含以下字段:员工姓名、用户id、地址、职位、公司部门、运营单位、分支机构和主管。这六个.csv文件中的每一个都包含以下信息。
在这里插入图片描述

login.csv:它有五个字段:id、日期、用户、pc、活动(登录/注销)。date字段包含每个用户执行的登录或注销活动的日期和时间戳。
device.csv:它有5个字段:id，日期，用户，pc，活动(连接或断开)。date字段包含连接或断开每个用户执行的任何可移动媒体活动的日期和时间戳。
file.csv:它有6个字段:id、日期、用户、pc、文件名、内容。date字段包含用户访问文件的日期和时间戳。文件名以五种不同类型的文件扩展名(.doc， .txt， .jpeg， .pdf， .zip， .exe)存储。
http.csv:有6个字段:id、日期、用户、pc、URL、内容。date字段包含每个用户访问的url的日期和时间戳。
email.csv:它有10个字段:日期、用户、pc、收件人、cc、bc、发件人、大小、附件、内容。date字段包含每个用户执行的电子邮件发送或接收活动的日期和时间戳。
psychometric.csv:它有五个领域:O、C、E, A,和N这些领域反映了心理的五个人格特质:海洋,代表开放经验,责任心C, E为外向性、宜人性,和N为每个用户神经质。

3.3 数据挖掘跨行业标准流程- CRISP DM方法论

本文提出的方法遵循CRISP-DM方法，即跨行业数据挖掘标准流程。成立于1996年。这种方法用于保证数据挖掘项目的质量和效率[5,23]。它包括六个步骤，下面按照我们建议的方法中所遵循的步骤加以说明：

对业务的理解:它确立了项目的目标、要求和意义。这一步反映在拟议的工作中，将内部威胁检测确定为网络安全领域中最关键的问题之一。这项研究的目的是利用用户行为数据来识别用户是非恶意的还是恶意的。
理解数据:指的是收集数据并确保其符合某些标准的过程，如完整性、准确性和相关性。这一阶段反映在从内部威胁数据集CMU-CERT v4.2收集数据的拟议工作中。
数据准备:数据准备用于进一步处理的定义。这个步骤在建议的工作中通过合并数据预处理步骤来表示，例如清洗、归一化和转换。
建模:通过选择和执行满足项目目标的适当算法来定义建模。在本文的工作中，这一步骤是通过选择和实现一套方法来表示的:数据预处理、特征提取、特征选择、TF-IDF评分计算和分类。
评价:描述了对上一步选择的模型对匿名数据进行测试，通过展示和分析结果来保证所提模型的效率。这一步骤在建议的工作中表示，通过使用各种性能评估指标确定建议的方法的效率。
部署:为了确定模型的有用性，这个步骤涉及制定战略决策。它是以前面步骤的结果为基础的。这反映在拟议的工作的结果、解释和结论中。

由于上述方法与所提出的方法是一致的，因此可以保证所提出的模型在现实世界中易于推广。接下来的分节将详细讨论拟议的方法。

3.4 数据预处理

原始数据中的噪声包括空值、缺失值、冗余值和不支持的数据格式。在这项工作中，通过数据清理、数据转换和数据缩减来实现。

数据清理:这一步检查数据集中缺失的值和NaN，而不是数字值。在此步骤中，数值缺失值被标记并用0填充，分类缺失值被列为missing。在数据集中也会搜索和消除重复的用户条目。
数据转换:数据集的数值属性必须正确地缩放到一个特定的范围，以适应ISOMAP算法。因此，在这一步中，将结合执行小数尺度归一化和z-score归一化。—Decimal Scale Normalization:通过移动数据集值的小数点来实现。
数据缩减:为了进行数据缩减，应用了一个高相关滤波器，用来预测列值的相关系数。它是通过搜索具有相似模式的列，并使用高相关过滤器从数据集中消除重复属性值来执行的。用皮尔逊积矩和卡方值计算相关系数。

3.5 特征提取

ISOMAP是一种全局特征提取方法，是数据点全局结构的更稳定表示。它基于多维尺度算法(MDS)。高维数据的关键问题是难以识别，从而影响分类器的精度。使用ISOMAP可以很容易地将高维数据定位到低维空间中，从而可以很容易地提取出用户的行为特征，而不会造成任何信息的丢失。与其他特征提取算法不同，ISOMAP不依赖于数据的局部结构。它使用非线性方法来处理输入数据。它计算数据点的全局结构，同时尽可能保留它们的局部相似性测度和拓扑结构。ISOMAP是目前最有效的降维方法之一。在ISOMAP中，经典的欧几里德距离被测地距离所取代，以将高维数据表示为低维数据，同时最小化信息损失[32]。在高维空间RD中，用户行为活动是由预处理后的数据集的实际向量Xi获得的。然后，通过生成邻域图来确定最短路径来提取行为特征。每个字段的属性由一个向量表示。每个特性及其相关的用户详细信息都以相同的方式收集。

3.6 TF-IDF评分计算

Term Frequency - Inverse Document Frequency (TF-IDF)方法通常用于评估文档中出现的任何单词的频率，并将其与文档外的相关性[21]进行比较。在提议的工作中，TF-IDF分数是从每个用户的文件、http和电子邮件关键字计算出来的。它被用作最重要的参数之一帮助增强特征集的最终分类。在CMU-CERT数据集中，file.csv以关键字列表的形式提供每个文件的内容;类似地，对于每个访问的HTTP页面，HTTP .csv文件提供了每个访问的网页的关键字列表;最后，email.csv文件提供了电子邮件通信关键字，所有这些都是在前面的步骤中使用ISOMAP提取的。

使用TF-IDF Scores进行内部威胁检测的直觉是，恶意文件访问、访问与工作相关的网站、访问密钥生成器下载网站、恶意电子邮件通信的频率都是识别恶意内部人员的有价值的线索。虽然，该数据集并不表明访问文件时的文件行为过程(剪切、复制、粘贴或修改)或访问URL时访问的网站类型。在没有这些信息的情况下，我们利用file、http和email日志文件的ground truth构建了两个文档D1和D2，其中分别包含来自非恶意用户使用的文件、网站和电子邮件通信的关键词。因此，与职业空缺、键盘记录者、密码、破解、工作挫折等相关的术语，将指出恶意用户文件的文档，http和电子邮件文档，即D2。用户的文件页面、网页或电子邮件页面的TF-IDF评分值将显示其是否等同于D1或D2，即非恶意或恶意。波特词干提取算法(PSA)[26]，用于排除后缀，以定位D1和D2中每个单词的基本形式。从所有检索的内容中删除所有停止字，如is、the、a等和标点符号。此外，所有单词都转换成小写。

3.7 特征选择

特征选择是一种从一系列选项中选择最佳特征的技术。它可以使学习算法在降低模型复杂度的同时快速训练。使用整个提取的特征集进行分类时，威胁检测准确率较差。因此，为了获得更小的特征表示，本文实现了特征选择。本研究采用帝企鹅算法(EPA)作为最优特征选择方法。这是利用帝企鹅的蜷缩行为，从大量的可能性中选择合适的特征集的仿生算法。使用该算法的主要论点是，建立的基于种群的算法用于有效的特征评估优于基于单一解的方法。他们在整个搜索空间中寻找最佳解决方案(全局最优方案)，而忽略局部最优。而另一方面，EPA在计算最优解的同时，也关注整个搜索空间，考虑局部最优。如图2所示的流程图，代表了使用帝企鹅算法进行最优特征选择的过程。

3.8 分类系统

最后，利用多模糊分类器(MFC)将用户分为非恶意用户和恶意用户。MFC将具有相似行为的用户分组为一个模糊集。基于模糊逻辑的技术可以更直观地捕获和处理特征的隐藏知识。在模糊分组的情况下，每个个体都链接到类的一个成员值(非恶意的和恶意的)。成员值越高，个体与特定类的联系就越紧密。每个用户的会员价值决定了内部人员构成的危险程度。每个用户的成员关系取值范围在[0,1]之间。因此，两个类中特定用户的成员关系值总和为1。在本工作中，MFC由多个模糊推理引擎(F1、F2、F3和F4)组成，它们并行处理，以实现更快的处理速度。这些模糊推理引擎的数据选择模式基于几个if-then规则，包括模糊化每个输入参数的语言术语(min、medium和max)。每个模糊机包含一个模糊器、一个推理机和一个去模糊器。在模糊逻辑中，所有的操作都在0到1之间进行，包括以下步骤，由多个模糊推理引擎对输入数据进行选择和处理。

输入值的模糊化:对于给定的实值/绝对值，模糊化函数返回一个模糊尺度上隶属度最高的级别(值)。首先，输入参数(F1:文件、http和电子邮件的TF-IDF评分;F2:依赖时间的特征，F3:依赖频率的特征)被模糊化，对应的输出参数为分数(恶意或非恶意)。为此，多台模糊发动机从F1、F2和F3中获取清晰的输入参数。它决定了这些输入向量与下列每个语言学相关的程度:min, medium, max。为此目的，建议的分类任务是使用IfThen规则专门设计的。例如，如果A是GOOD, B是BAD，那么Class 1是一个模糊范数，其中A和B是输入特征，GOOD和BAD是模糊集。本工作中，多干扰发动机(F1、F2、F3、F4)采用Mamdani (if-then)规则并行运行，最终结果如表4[11]所示。语言名称的不同模糊集，如MIN、LOW、MEDIUM、HIGH、MAX等，可以用来对每个分类类别的每个函数进行分类。模糊集的语言名称必须是一个字符串属性。

4. 讨论和结果分析

4.1 讨论

本小节检查实际数据集的一个样本，并跟踪所提议方法的后续阶段，以便展示所提议研究的相关性。从实验上观察到，这项研究是基于若干假设的。例如，假设用户的办公开始时间为08:00:00，办公结束时间为19:00:00。由于该信息在原始数据集中不存在，因此我们观察了用户每天登录和注销次数的频率。通过观察在07:30:00和08:30:00之间的最大登录数，我们将办公室的开始时间选择为08:00:00。类似地，当办公结束时间为19:00:00时，我们观察到最大退出次数在18:30:00到19:30:00之间。由于本研究基于合成数据集(CMU-CERT)，因此缺乏真实世界的数据，所以会做出这样的假设。图3显示了数据集真实部分的样本，代表了前5个用户从CMUCERT r4.2数据集的各自的.csv文件(login .csv, file.csv, device.csv, email.csv, http.csv, psychometricics .csv)收集到他们的详细信息后的一天用户行为细节(活动)。在图3中，根据可用的ground truth，用户0为正常用户，用户3为恶意用户。同样，图4和图5分别表示用户0为正常用户和用户3为恶意用户的一天用户行为活动样本。因此，任何模型的成功率都直接受到对数据进行适当预处理的影响。因此，我们在本研究中采用了一套数据预处理技术。然后，利用非线性降维技术ISOMAP作为特征提取方法。之所以使用它，是因为它能够确定大维度数据的低维度嵌入。由于所提供的内部威胁数据本质上是非线性的，即数据集的各个.csv文件之间没有直接关系，因此，我们使用了ISOMAP。与其他非线性特征提取方法相比，如果参数设置正确，如k个最近邻的个数、分量的个数、权重等，则ISOMAP简单有效。因此，为了避免ISOMAP中众所周知的短路误差，我们实验了不同的k值。K值设置过高会导致低维嵌入错误，设置过低会导致测地线距离估计不准确。因此，在建议的工作中，我们用不同的k值(从1到15)进行测试，之后选择k=13作为期望的k值，且权重一致。通过这种方式，我们得到了一个全面的特征集，帮助我们得到准确的分类结果。

4.2 结果

本小节将分析和讨论通过执行所提出的方法所获得的结果，以及由四种用于内部威胁检测的相对先进技术的每一种所获得的结果。实验结果表明，该方法能够有效识别恶意用户。这种增强是在分类器的准确性方面提出的。然而，仅靠准确性不足以评估效率，特别是当数据集高度倾斜时，如CMU-CERT内部威胁数据集。因此，我们也使用其他度量(精度、召回率、f-measure、aucc - roc、威胁检测率、误报率和错误率)来评估所提方法的效率。这些性能评价指标是根据表7中给出的混淆矩阵计算的。除此之外，为了获得准确的结果，自由度也是一个重要的考虑因素。它是指控制模型的模型参数(超参数、系数或权重)的数量，以估计误差，以改进在进一步的迭代中获得的结果。然而，如果模型参数的数量(自由度)超过了模型所训练的数据样本或观察值的数量，那么就会出现过度学习或过拟合的风险。由于所提出的模型是通过迭代学习训练样本来工作的，因此需要对所提出的模型进行适当次数的训练，以避免过度学习/过拟合，从而获得准确的结果。在这项工作中，通过执行以下两个步骤来实现