【网络流量识别】总结篇2：机器学习方法在网络流量识别的应用-CSDN博客

本文链接：https://blog.csdn.net/zhuge2017302307/article/details/120662251

本文是总结系列文章的第二篇，主要介绍涉及到的聚类方法和深度学习方法的基本原理，以及应用时的操作。

由于传统基于模型方法的缺陷，机器学习方法是目前用于IDS的突出方法。基于机器学习的网络流量数据分类大概可分为三种：

（1）聚类：无监督学习，如K-Means，FCM等；

（2）传统机器学习分类方法：半监督学习，如SVM，RF，GBT等；

（3）深度学习：监督学习，如DNN，CNN，RNN等；

此处介绍聚类方法，以K-Means和FCM为例，以及深度学习方法，以RNN，IRNN，LSTM，GRU和DBN为例。

一、聚类方法

1.1 聚类方法简介

（1）聚类的定义

聚类是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇，使得同一个簇内的数据对象的相似性尽可能大，同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起，不同类数据尽量分离。

（2）聚类和分类的区别

聚类是一种无监督学习算法，不关心数据的标签，目标是把相似的数据聚合在一起；分类是监督学习算法，目的是把不同的数据划分开，通过训练数据集获得分类器，然后取分类数据。

（3）聚类的一般过程

① 数据准备：特征标准化和降维；

② 特征选择：从最初的特征中选择有效的特征，并存储在向量中；

③ 特征提取：通过对选择的特征进行转换形成新的突出特征；

④ 聚类：基于某种距离函数进行相似性度量，获取簇；

⑤ 聚类结果评估：分析聚类结果，如距离误差和SSE等。

（4）聚类方法分类

主要有四类：划分式聚类方法，基于密度的聚类方法，层次化聚类方法等。

——划分式聚类：需要事先指定簇类的数目或者聚类中心，通过反复迭代，直至最后达到目标函数最小。代表方法有K-Means及其各种变体；

——基于密度的聚类：对于非凸形状的数据点，K-Means无能为力，如环形数据的聚类。基于密度通过定义两个参数：密度的邻域半径和邻域密度阈值。如DBSCAN等；

——层次化聚类：为了解决前两种方法的链式效应，层次聚类将数据划分为一层一层的簇，后面一层生成的簇基于前面一层的结果。

上述方法为硬聚类，每个数据只能被归为一类。模糊聚类作为聚类分析中的一个广泛分支，通过隶属函数来确定每个数据隶属各个簇的程度，而不是将一个数据对象硬性的归类到某一簇中。已经有很多模糊聚类算法被提出，如FCM等。

1.2 K-Means

k-means算法目标是，以k为参数，把n个对象分成k个簇，使簇内具有较高的相似度，而簇间的相似度较低。

k-means算法的处理过程如下：首先，随机地选择k个对象，每个对象初始地代表了一个簇的平均值或中心；对剩余的每个对象，根据其与各簇中心的距离，将它赋给最近的簇；然后重新计算每个簇的平均值。这个过程不断重复，直到准则函数收敛。通常，采用平方误差准则，其定义如下：

$E=\sum_{i=1}^{k}\sum_{p\in C}^{}|p-m_{i}|$

这里E是数据库中所有对象的平方误差的总和，p是空间中的点，mi是簇Ci的平均值。该目标函数使生成的簇尽可能紧凑独立，使用的距离度量是欧几里得距离,当然也可以用其他距离度量

算法流程如下：

（1）任意选择k个点作为初始质心（通常随机选择）；

（2）计算每个数据点到中心点的距离，数据点距离哪个中心点最近就划分到哪一类中。

（3）对每个簇，计算簇中所有点的均值并将均值作为新的质心；

（4）重复以上步骤，直到每一类中心在每次迭代后变化不大为止。也可以多次随机初始化中心点，然后选择运行结果最好的一个。

优点：简单直接，易于理解，低维数据上效果不错；

缺点：高维数据计算速度慢，且需提前确定k值，对初始质心点敏感，对异常数据敏感。

1.3 FCM

模糊聚类方法基于模糊数学理论进行聚类。

模糊c均值聚类（FCM）算法是一种以隶属度来确定每个数据点属于某个聚类程度的算法。该聚类算法是传统硬聚类算法的一种改进。

设数据集 $X=\left \{ x_{1},x_{2},\cdots ,x_{n} \right \}$ ，它的模糊c划分可用模糊矩阵 $U=\left [ u_{ij} \right ]$ 表示，矩阵U的元素表示第 j ( j=1, 2, …, n ) 个数据点属于第i (i=1, 2, …, c )类的隶属度，满足如下条件：