【网络流量识别】【聚类】【一】模糊聚类FCS和GA—网络安全网络流量功能的模糊聚类

最新推荐文章于 2024-04-21 07:49:57 发布

昔我往矣wood

最新推荐文章于 2024-04-21 07:49:57 发布

阅读量911

点赞数

分类专栏：网络安全文章标签：机器学习网络安全聚类

本文链接：https://blog.csdn.net/zhuge2017302307/article/details/120507444

版权

网络安全专栏收录该内容

12 篇文章 42 订阅

订阅专栏

来自IEEE的文章：网络安全网络流量功能的模糊聚类。

链接：安全|网络流量功能的模糊聚类IEEE 会议出版物|伊 · X普洛尔

大多数IDS使用监督或者无监督模式识别技术来构建分类器，然后用于入侵检测。这些方法包括统计模型、免疫系统方法、神经网络、状态过渡分析和遗传算法。这些技术不能识别复杂或未知的攻击，也无法适应移动网络等动态环境。聚类提供了一种分类技术，但其中许多方法仅识别基本攻击，无法识别复杂攻击和未知攻击。

模糊聚类已证明优于传统聚类，克服了未知攻击模式和动态环境的限制。改进的模糊均值c聚类法已尝试纳入径向基函数（RBF）、模拟退火（SA）和粒子群优化（PSO）。所有这些方法均受到识别率低、误报率高和无法识别未知攻击模式的影响。

本文提出新方法，将遗传算法维度降低技术与经过修改的模糊C均值聚类（FCM）相结合，将TCP数据包分为正常和入侵包。测试表明，其具有优秀的识别率和稳健性，并且没有假阳性率。

第二节：模糊C均值聚类法（FCM）

2.1 网络流量数据集

KDDCup1999数据集已成为测试入侵检测安全系统的实际标准。

数据集由4GB压缩TCP转储数据组成，包括在网络流量收集的500万条连接记录。每个记录都包含从TCP连接数据中提取的41个特征。这些功能包括三个类别：单个TCP 连接的基本功能、连接中的内容功能以及使用两秒时间窗口的误差率功能。每个记录还包括一个标志，指示它是正常的还是入侵的。异常连接标记为模拟攻击类型。

KDD数据集包含24种已知类型的模拟攻击。此外，还包括14种未知类型的攻击，以测试检测以前未知或变异的攻击模式的能力。

2.2 功能子集选择

模糊C均值聚类算法（FCM）计算每个数据项到每个聚类中心点的距离。数据和中心都在D维空间中，d是用于聚类的TCP包中的功能数。因此，为了减少聚类的复杂性，最好减少功能数量。由于基于统计和基因聚类的传统尺寸减少技术具有局限性。因此，基因算法（GA）用于特征子集选择，每个染色体对应于候选的特征子集。每个染色体被编码为0和1的字符串，位数等于功能总数，每个位代表特定功能A，GA确定用于训练规则集的最佳功能集。

2.3 模糊C均值聚类

与传统聚类方法不同，模糊C均值聚类（FCM）允许一个数据项属于多个聚类，属于聚类的数量表示为一个模糊集。

本文提出的方法将数据划分为 c 个类。Z是一个包含数据的向量，例如 $Z=\left \{ z_{1},z_{2},\cdots ,z_{k} \right \}$ ，每个元素z(k)都是挑选出来的特征子集中的d维特征数据包的第k个元素。向量 $U=\left [ u_{ik} \right ]$ 是Z的模糊c-划分，是包含于第 i 个簇中每个数据项 zk 对应的模糊隶属度函数。此向量随机初始化为 $U^{(0))}$ 以开始该过程，模糊分区矩阵U是迭次调整，直到U变得小于预定阈值。V是聚类中心或者中心向量，例如 $V=\left \{ v_{1},v_{2},\cdots ,v_{k} \right \}$ 。

任何数据项zk和聚类中心vi之间的平方距离使用A-范数作为内积距离确定：

A-范数是一个标准化数据集的矩阵。在实践中，A-范数可以是欧几里德范数、对角范数或马氏范数。

与每个平方误差相关的权重是 $(u_{ik})^{m}$ ，这里的权重是加权指数，或者模糊参数。m控制平方误差的权重，从而确定聚类的模糊性。m的值越大，成员身份越模糊。m可能是大于等于1的任意值。测试表明，m介于[1.5, 3]之间会产生良好的效果。

模糊聚类通过对目标函数的优化迭代完成。在每次迭代中，成员函数 $u_{ik}$ 和聚类中心 $v_{i}$ 使用下式更新：

2.4 使用模糊聚类进行入侵检测

一旦模糊集群被建立并标记为正常或恶意，所构建的入侵检测系统就已准备好识别传入的 TCP 数据包。对于每个传入的数据包，系统将确定其在每个簇 $u_{ik}$ 中的成员身份。如果成员超过了预定阈值 $\delta$ ，对于任何被标记为恶意的聚类簇，该包都会被阻止，并且发出警报，识别该包和攻击类型。

第三节：测试和结果

本文的入侵检测方法使用KDDCup1999数据集进行测试，基因算法子集使用由大概500，000个连接记录的10%数据组成的数据集子集。特征子集的选择将原来的41个特征减少到8个的特征子集。FCM算法使用8个特征来创建5个模糊集群，4个用于攻击类别的识别，1个用于正常包。

该系统使用 KDD 数据集中的全部500万个连接记录进行了测试。数据集包含培训数据中未存在的 14 种入侵攻击类型，以测试识别未知攻击模式的能力。新的 IDS 成功识别了大多数入侵攻击，成功率为 98%，误报率仅为 2%。

运行了第二个测试，其中创建了 26 个组集：24 种已知类型的模拟攻击各一个，未知类型的攻击一个，普通数据包一个。这导致了 99% 的成功率和只有 1.5% 的误报。虽然此测试显示了更好的准确性，但在确定 26 个组集中每个组中每个数据包的模糊成员数时，计算过多。

下表提供了模糊遗传IDS与其他方法的比较，也使用 KDD 数据集。拟议的FCM系统具有最佳的入侵检测率和误报率，此外，新系统能够正确识别培训数据中未出现的14种入侵。这显示了 FCM 方法的稳健性。

总结

本文采用遗传算法降低维度技术和模糊C均值聚类（FCM）相结合的方法（前者用于特征子集的选择，后者用于聚类），以KDDCup1999数据集作为数据来源，对恶意数据包进行识别。实验结果证明，使用5个簇无法识别2%具有真实环境性能的恶意数据包；将集群数量增加到26个时，可以改进方法对于攻击的识别，但计算时间花费巨大。

文中提出的方法可以识别大多数攻击，而且能够确定未知的攻击模式。

需要进一步研究：

（1）确定集群的最佳数量，以及如何划分他们以提高性能而不影响计算时间；

（2）测试特征子集；

（3）减少特征数量将降低FCM算法的复杂性；

（4）进一步测试簇中的成员阈值，以确定识别恶意数据包的最佳方法。

昔我往矣wood

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
【网络流量识别】【聚类】【一】模糊聚类FCS和GA—网络安全网络流量功能的模糊聚类

来自IEEE的文章：网络安全网络流量功能的模糊聚类。链接：安全|网络流量功能的模糊聚类IEEE 会议出版物|伊 · X普洛尔目录摘要第一节：introduction第二节：模糊C均值聚类法（FCM）2.1 网络流量数据集2.2 功能子集选择2.3 模糊C均值聚类2.4 使用模糊聚类进行入侵检测第三节：测试和结果总结摘要许多当前的入侵检测系统（IDS）无法识别未知或者变异的攻击模式，或无法在移动网络所需的动态环境中运行。因此，寻找合适的管理...
复制链接

扫一扫