【网络流量识别】【聚类】【二】FCM和GMM—使用聚类技术和性能比较进行网络流量异常检测

最新推荐文章于 2025-06-03 17:33:41 发布

原创最新推荐文章于 2025-06-03 17:33:41 发布

· 5.7k 阅读

20 ·

版权

文章标签：

#机器学习 #网络安全 #聚类算法

网络安全专栏收录该内容

12 篇文章

订阅专栏

本文探讨了如何利用GMM和FCM进行网络流量异常检测，强调了特征选择、简化技术（如NMF和PCA）的应用，以及对FCM目标函数和距离函数的改进以降低计算复杂性。重点介绍了高斯混合模型在聚类中的作用和模糊C均值聚类的灵活性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文介绍采用高斯混合模型（GMM）和模糊C均值聚类（FCM）来进行网络流量异常检测的方法。

原文来自IEEE，发表日期2013年。

原文链接：使用聚类技术和性能比较进行网络流量异常检测|IEEE 会议出版物|伊 · X普洛尔

K-means聚类和高斯混合模型（GMM）是有效的聚类技术，模糊聚类比硬聚类更加灵活，并且由于使用模型聚类对数据进行自然处理，因此在入侵检测方面非常实用。模糊c均值聚类法（FCM）是一种迭代的最佳算法，通常基于最小二乘法来划分数据集，具有较高的计算开销。本文建议修改目标函数和距离函数，在保持聚类精度的同时降低FCM的计算复杂性。

本文提出了FCM聚类、GMM和特征变换相结合的方法，并且介绍了相关的测试方法和聚类方法的比较。

第一节：介绍

不同的异常以不同的方式出现在网络中，因此设计一个有效的异常检测系统需要从大量嘈杂、高维数据中提取相关信息，区别正常和异常的网络行为的一般模型是困难的。基于模型的算法在应用程序中也不可移植，网络流量的性质发生细微变化，模型也会不合适。因此，基于机器学习原理的非参数学习算法是可取的，因此它们可以学习正常测量的性质，并自主的适应正常结构的变化。

异常数据检测非常重要。因为数据中的异常转化为各种应用领域中重要（且通常至关重要）可操作的信息。例如，计算机网络中的异常流量模式可能意味着被黑客攻击的计算机正在向未经授权的目的地发送敏感数据。异常 MRI 图像可能表示存在恶性肿瘤。信用卡交易数据中的异常可能表明信用卡或身份盗窃或航天器传感器的异常读数可能表示航天器某些部件存在故障。

异常数据检测有很多技术，比如统计学，机器学习，数据挖掘和免疫启发技术。聚类是用于异常检测的机器学习技术之一。它基于这样的假设：正常数据实例属于大型和密集的聚类，而异常不属于任何聚类或形成非常小或独特的聚类。模糊聚类比硬聚类更灵活，对于离群值检测非常实用，因为它考虑到了数据的性质。传统的FCM聚类技术的优点是可以量化元素对检测到的聚类的隶属度。GK-FCM （古斯塔夫森-凯塞尔 FCM）可以生成适合数据形状和位置的聚类。但是二者的计算复杂性很高。本文提出的对目标函数和距离函数的修改降低了计算复杂性，同时保持了分类的准确性。高斯混合模型（GMM）将数据分类具有指定平均值、协方差和混合比例的子类。它对簇大小的区分具有鲁棒性，并且是FCM将数据实例分类为具有高斯分布的簇的一种实用方法。

第二节：异常检测方法

异常检测的方法大概有三种：分类、光谱分析和聚类。

聚类根据数据相似性对数据进行分类，这些相似性可通过距离函数（如欧几里得函数，切比雪夫函数）来测量。好的集群应该具有内部相似性和相互差异性。

聚类可分为两种类型：分层聚类使用以前建立的聚类来查找连续的聚类，分区聚类根据迭代程序同时确定所有聚类。基于密度的算法，如DBSCAN（基于密度的噪声应用空间聚类），以及基于概率模型的技术，如AutoClass和K-means聚类也逐渐流行起来。

第三节：特征选择和简化

通常来说，数据集中许多维度（即特征）在生成模型时没用，为了减少算法复杂性，缩小尺寸很重要。当特征的原始单位和意义很重要且建模目标是识别有影响的子集时，特征选择优于特征转换。当存在绝对特征且特征转换不恰当时，特征选择成为减少尺寸的主要手段。

非负矩阵分解（NMF）和主成分分析（PCA）是广泛应用的特征变换技术。

3.1 非负矩阵分解（NMF）

许多维度（特征）的原始数据所包含的实际信息可能是重叠和相互关联的。在大多数情况下，需要进行特征选择以选择独立且不相关的变量，进行特征约简以获得其低阶近似值并降低大型数据库的计算复杂度，以及进行特征转换以通过线性或非线性转换组合不同的变量并形成显著的特征。

给定一个非负m*n矩阵X和正整数k<min(m, n)，NMF找到非负m*k矩阵W和k*n矩阵H，使X–WH的范数最小化，因此W和H是X的近似非负因子。W的k列表示X中变量的变换；H的k行表示X中原始n个变量的线性组合的系数，这些线性组合产生W中的转换变量。由于k<X的秩，乘积WH提供X中数据的压缩近似值。k的可能值通常由建模的上下文决定。

3.2 主成分分析（PCA）

主成分分析使用正交变换将一组可能相关变量的观测值转换为一组称为主成分的线性不相关变量值。每个主成分都是原始变量的线性组合。所有主成分相互正交，因此没有冗余信息。主成分的数量小于或等于原始变量的数量。此转换的定义方式如下：主分量是空间中的单轴。将每个观察投影到该轴上时，结果值将形成一个新变量。第二个主分量是空间中的另一个轴，垂直于第一个主分量。将观测值投影到此轴上会生成另一个新变量。主成分分析对原始变量的相对比例敏感。

定义一个经验平均值为零的数据矩阵XT，其中n行中的每一行表示实验的不同重复，m列中的每一列表示特定的特征。X的奇异值分解为X=W∑VT，其中m×m矩阵W是协方差矩阵XXT的特征向量矩阵，矩阵∑是对角线上有非负实数的m×n矩形对角矩阵，n×n矩阵V是XTX的特征向量矩阵。PCA变换由：YT=XTW给出。如果我们想要一个降维表示，我们可以将X投影到仅由前L个奇异向量定义的降维空间中，∑L是一个矩形单位矩阵。X的奇异向量的矩阵W等价于观测协方差C=X XT的矩阵的特征向量的矩阵W。