CBS:一种具有混合时空和统计特征的加密流量分类的深度学习方法

写完代码点瑞幸

已于 2024-03-12 10:00:13 修改

阅读量1.5k

点赞数 24

文章标签：分类深度学习数据挖掘

于 2024-03-12 09:41:55 首次发布

本文链接：https://blog.csdn.net/weixin_46711536/article/details/136642119

版权

CBS:一种具有混合时空和统计特征的加密流量分类的深度学习方法

Seydali, Mehdi, et al. “CBS: A Deep Learning Approach for Encrypted Traffic Classification With Mixed Spatio-Temporal and Statistical Features.” IEEE Access (2023).

简介

随着互联网和在线应用的快速发展，流量分类已成为计算机网络中越来越重要的话题。管理网络资源、提高服务质量和增强网络安全至关重要。由于流量加密技术，传统的流量分类方法变得无效且不准确。因此，科学界认为深度学习是一种对加密流量进行分类的高性能方法。该文提出了一种基于深度学习技术的加密流量分类方法CBS。CBS 可以使用 1D-CNN、基于注意力的 Bi-LSTM 和 SAE 深度网络模型在两个级别对加密流量进行分类。所提出的模型根据一组全面的会话和数据包级特征对流量类型和应用进行分类。CBS 使用从数据包内容关系、会话中数据包之间的时间关系以及工作会话的统计特征中提取的空间、时间和统计特征来准确区分流量类别。采用基于GAN网络的流量数据增强技术来缓解数据不平衡对流量类别的影响。在公共 ISCX VPN-Non VPN 2016 数据集上评估了拟议平台的性能。结果表明，该平台能够准确高效地识别应用并对加密流量进行分类。与最先进的方法相比，所提出的流量分类模型将准确率提高了21.3%，准确率提高了13.1%，召回率提高了18.11%，F1得分提高了19.79%。

引言

流量分类通常分为四类:基于端口的、基于有效负载的、基于机器学习的和基于深度学习的[5]。第一种也是最直接的方法是基于端口的分类，它通过从包头中提取端口号来识别流量的类型。基于有效负载的分析，称为深度数据包检测(DPI)，根据各种协议[5]、[6]的预定义模式和签名检查数据包有效负载。基于端口的方法和DPI方法都有一定的局限性。由于端口混淆、随机端口号分配、使用动态端口和网络地址转换(NAT)技术[7]、[8]，基于端口的方法可以更有效地对流量进行分类。此外，加密技术被广泛应用于互联网通信以保护隐私。因此，从数据包负载中提取有用信息的效率较低，从而导致分类的准确性较低[9]。DPI方法的主要问题是它的高计算开销，这使得它不适合实时或加密的流量分类[7]，[10]。因此，研究了统计流分析和机器学习方法来克服前两种方法的局限性。

机器学习算法利用时间序列和统计信息来学习流量数据[11]，[12]，[13]中的显著特征和模式。基于机器学习的方法解决了传统方法的问题，但引入了新的挑战，例如捕获手工制作的数据包和会话特征，这需要领域专家，并且可能很耗时。换句话说，机器学习技术高度依赖于人为设计的特征，这限制了准确性和通用性[15]，[16]，[17]。需要一种新的流量分类方法来解决机器学习问题。人们提出了深度学习方法来处理机器学习挑战[8]，[18]，[19]。与经典的机器学习算法不同，深度学习算法自动执行特征提取，使其对加密流量分类具有吸引力。

贡献

我们提出的方法的主要贡献可以概括如下:

CBS平台被提议用于检测两个级别的流量：应用程序识别和流量特征。
流量特征提取和加密流量分类已合并到一个统一的平台中。
该模型的架构包括三个神经网络，它们通过1D-CNN提取本地流量特征，通过Bi-LSTM提取时间流量特征，通过SAE提取流量统计特征。最后，将这些提取的特征融合在一起，形成一个全面的特征集。
GAN 网络已被用于为实例很少的类生成合成样本。GAN网络在特征提取之前缓解了不平衡的数据。
所提出的模型的有效性已在公开可用的数据集上进行了评估。结果表明，所提模型在精度、召回率、F1得分和准确率方面均表现良好。

基础知识

神经网络(NNs)是由许多相互连接的处理元素组成的计算系统[68]。通常，这些网络由称为神经元的多个构建块组成，这些构建块通过一系列链接连接起来，每个链接都有自己的权重[69]。在学习过程中，利用大量的数据样本来训练神经网络以产生期望的输出。深度神经网络是具有许多隐藏层的神经网络的一种特殊变体。由于计算能力的显著进步以及图形处理单元(gpu)和张量处理单元(tpu)的广泛可用性[70]，[71]，深度神经网络学习平台得到了普及，并吸引了各个领域研究人员的关注。在接下来的章节中，我们将讨论在我们提出的加密流量分类方法中使用的四种深度神经网络模型，即SAE、CNN、Bi-LSTM和GAN。

堆叠式自动编码器

自动编码器(AE)是一种无监督学习技术，它采用前馈神经网络来降低输入的维数或提取特征。该模型的目标是在输出端重构输入数据，使输入和输出数据之间的重构误差尽可能小[68]，[72]。自动编码器由编码器和解码器两部分组成。编码器将输入数据映射为低维代码，解码器将低维代码转换回原始数据。考虑一个学习数据集，其中xjϵRn。自编码器的目标定义为yj = xj，对于j ={1,2,3，…， m}。Autoencoder尝试学习一个目标函数Fw, b(x)≈x，其中w表示整个神经网络的权值集合，b表示偏置向量。式(1)给出了以L误差最小为目标的自编码器误差函数的一般形式。 $L(W,b)=min||x-Fw,b(x)||^2$

在这里插入图片描述

自动编码器架构由三层组成：输入层、隐藏层和输出层。隐藏层具有比输入层小得多的维度，并且隐藏层的输出（称为代码）可以用作加密流量分类任务的一组区别特征。提出SAE架构是为了提高性能和结果[73]。这是通过将许多AE堆叠到隐藏层中来实现的，其中一个AE的输出连接到连续AE的输入。图1示出了具有输入、输出和隐藏层的AE。

卷积神经网络

卷积神经网络（CNN）是重要的深度神经网络，它使用卷积运算自动提取输入数据特征[69]、[72]。卷积层是 CNN 网络中最重要的组件，因为它接收大小为 N * N 的方形构建块 X 和大小为 m * m 的卷积核 W 的输入。卷积运算产生大小为 (N-m + 1) * (N-m + 1) 的输出层 Z。公式 2 显示了用于计算 Z 的函数，其中 f 是非线性激活函数，例如应用于卷积输出以学习输入数据的更复杂特征的修正线性激活单元 (ReLU) 或 Leaky ReLU。

$Z_{ij}=f(\sum_{k=0}^{m-1}\sum_{l=0}^{m-1}W_{kl}X_{(i+k)(j+l)})$

池化层是 CNN 的一个重要模块，通常通过最大池化或平均池化来减少输出大小和计算复杂性。 CNN 已用于各种应用，包括图像处理、机器视觉和自然语言处理 [69]。由于网络流量的顺序性质，采用 1D-CNN 模型对加密网络流量进行分类。王等人。还在实验中证明了 1D-CNN 模型相对于 2D-CNN 模型在对加密流量进行分类方面的优越性 [57]。使用 1D-CNN，可以根据网络数据包中相邻字节之间的空间依赖性为每个流量类别和应用提取区分特征。

基于双向LSTM的的attention

由于网络流量是以分组字节为单位的连续序列数据流，因此已经提出了深度神经网络（如LSTM和BiLSTM）来提取网络分组之间的时间特征[74]。作为一种特殊类型的RNN，LSTM网络将梯度消失和梯度爆炸作为RNN的两个重要限制。与RNN相比，LSTM网络在识别序列数据中的长期依赖关系方面更有效，使其成为从网络流量数据中提取时间特征的最佳选择[72]。LSTM结构由三个门组成：遗忘门、输入门和输出门，下面将讨论它们。图2显示了LSTM单元的基本组件。

在这里插入图片描述

Bi-LSTM网络是由两个LSTM组成的顺序处理模型的变体[75]。当一个LSTM的输入是正向的时，另一个LSTM的输入是反向的。LSTM网络是为了解决长期依赖性而开发的。由于其结构，LSTM可以随着时间的推移记住信息，并非常好地学习远距离信息。本研究使用Bi-LSTM模型，因为它的预测精度比LSTM更高。注意力机制专注于Bi-LSTM隐藏层产生的信息。注意是一种神经网络机制，它通过增强某些输入部分而忽略其他部分来模仿认知注意。

GAN

近年来，生成对抗网络（GAN）作为深度学习的一种形式引起了人们的关注。GAN由两个主要的神经网络组件组成：生成器G（x）和鉴别器D（x）。这两个组件相互进行对抗游戏[26]，[27]。生成器是一个神经网络，它产生假数据来训练神经网络。生成器使用随机长度噪声向量生成样本[76]。生成器的主要目标是生成与原始样本真实且足够相似的样本。该识别器是一个神经网络，用于区分生成器产生的真实的数据和虚假数据。该系统使用来自两个不同来源的数据进行训练。在训练过程中，真实的数据样本被用作正样本，而生成器的假样本用作负样本。生成器G必须将其生成的输出样本传输到训练器D进行训练。该方法区分来自数据集的真实样本和由生成器创建的合成样本。同时，生成器尝试生成可能欺骗D的更真实的样本。生成器的目标是最大限度地减少GAN的输出，而GAN的目标是最大限度地增加输出。这两个组件都参与了竞争性的最大-最小博弈，这构成了GAN对抗性的基本基础。图3描绘了GAN网络的结构及其两个基本组件。

在这里插入图片描述

框架

本文介绍了一种名为CBS的新平台，如图4所示。CBS由流量预处理、特征提取和分类三部分组成。流量分类组件使用 1D-CNN、Bi-LSTM 和 SAE 等深度学习模型在应用识别和表征级别对流量进行分类。分析数据集的时间、空间和统计特征，以识别数据包依赖性。原始流量基于会话进行预处理，与基于流的分离相比，它提供了更多的信息，如图 5 所示。删除 MAC 地址、匿名化 IP 地址并规范化数据包字节长度后，将生成一个 1500 字节的向量。从流量会话中提取 25 个与会话相关的统计特征。这 25 个特征用作 SAE 网络的输入。

在这里插入图片描述

由于原始流量格式的分层结构，选择1D-CNN来提取网络会话的高阶空间特征。网络数据包是通过网络通道传输的字节，包含各种形式的数据，例如标头、有效负载和控制信息。通过相邻字节之间的依赖关系，1D-CNN可以从字节序列中检测和提取有意义的模式：与特定序列相关的结构、特征或行为。通过分析数据包数据中连续字节之间的这些依赖关系，1D-CNN 可以区分数据包内的本地关系。1D-CNN通过对输入数据进行卷积滤波器进行操作，卷积滤波器是应用于滑动输入数据窗口的小权重矩阵。设计具有不同宽度和深度的卷积滤波器可以捕获数据包中字节位置的模式。1D-CNN可以识别不同粒度级别的模式，而使用传统的机器学习或基于规则的方法很难检测到这些模式。1D-CNN 可以检测具有特定序列号的 TCP 标头的所有数据包，这对于识别与特定 TCP 连接关联的所有数据包很有价值。此外，1D-CNN可以识别与特定应用程序或服务相关的所有数据包以及包含特定数据类型的所有数据包。例如，1D-CNN 可以从网络数据包中学习以下模式：

TCP 标头始终以相同的字节序列开头。
有效负载始终遵循 TCP 标头。
TCP 数据包的序列号始终比前一个数据包的序列号更重要。
TCP 数据包的确认号等于下一个数据包的序列号。

一旦 1D-CNN 学习了这些模式，它就可以识别其他序列中的类似模式，如图 6 所示。此信息可以对数据包进行分类或识别流量模式。

在这里插入图片描述

Bi-LSTM 是一种序列处理模型，用于分析网络行为数据并增强 CBS 模型可用的信息。它可以从流量会话中提取时间特征并预测应用程序类。Bi-LSTM 适用于处理时间序列数据、解决依赖关系问题和提高分类准确性。不同的数据包类（如聊天和语音）具有不同的到达间时间戳。基于注意力的机制为数据包数据的某些部分分配更多的权重，同时降低其他部分的权重。如图 6 所示，Bi-LSTM 是用于学习流量会话期间网络流量时间特征的主要模型。Bi-LSTM结合了注意力机制来增强长期记忆功能。

本研究基于网络流量中的会话级统计特征，研究了特定应用程序类的独特特征。网络流量根据统计特征进行分类，例如平均值、标准差、最小值和最大值、数据包长度、到达间隔时间、TCP 标志计数、流持续时间和数据包数。表 3 列出了 SAE 模型中采用的统计特征。该方法假设每个应用程序的网络层流量具有唯一的统计特征。在本文中，使用编码特征来提取使用 SAE 的特征，它决定了应用程序类型，而不是客户端类型。自动编码器用于降维和特征提取。由于数据集中要素之间的复杂关系，自动编码器可能不会降低输入要素的维数。因此，采用多个自动编码器来构建堆叠式自动编码器。如图 6 所示，SAE 网络用于确定从会话中提取的统计特征之间的关系。管理多个已开发的应用程序给网络管理带来了挑战，包括在有限的时间内获取足够的训练样本。由于不同应用程序的受欢迎程度不同，流量样本存在类不平衡，导致错误分类问题和性能下降。基于深度学习的算法可以自动提取流量特征，但需要海量数据来学习流量类别。为了解决这个问题，CBS使用GAN模型来增强流量数据并生成目标流量，如图5所示。不平衡的数据集会对深度学习模型产生负面影响。样本较多的类具有较高的准确度，而少数类的准确度较低。CBS 平台在学习减轻数据不平衡的影响之前部署了 GAN 模型。该模型与原始样本一样，为样本较少的类（少数类）合成样本。

表3 CBS 的 SAE 模型中使用的统计特征列表

在这里插入图片描述

1D-CNN 模型设计用于从数据包字节中提取空间特征。虽然它可以提高流量分类的准确性，但它无法提取工作会话中数据包之间的统计和时间特征。相比之下，Bi-LSTM 模型只能从网络流量数据包中提取时态特征，而不能提取统计或空间特征。结合这三个特征对于创建一组全面的流量分类特征至关重要。CBS的主要优势在于集成这些功能，以准确区分和分类网络流量数据包。流量分类过程将提取的要素组合在一起，以创建一组全面的要素。如图 6 所示，这些特征被馈送到一个完全连接的网络中，用于流量分类。由于其结构不变性，全连接网络可以对流量进行分类，而无需了解网络结构。softmax 函数将 N 个实数的向量转换为 N 个可能类的概率分布。图 7 至 9 显示了 CBS 中使用的 1D-CNN、Attention Bi-LSTM、SAE、GAN 和 FC 模型的架构。以下各节提供了有关数据集和流量数据预处理的更多详细信息。

在这里插入图片描述

图7 CBS模型中用于特征提取的1D-CNN、注意力Bi-LSTM和SAE模型的架构图。

在这里插入图片描述

图8 CBS模型中数据不平衡的GAN模型的架构图。

在这里插入图片描述

图 9 用于 CBS 模型中流量分类的 FC 模型的架构图。

特征

时间特征:时间特征，如数据包频率、大小和会话持续时间，是加密流量的时间相关特征，有助于识别模式并相应地对其进行分类。
空间特征:空间特征对于识别工作会话中加密流量中的网络数据包字节的位置至关重要。这些特性捕获字节之间的空间关系。
统计特征:通过统计特征，如平均报文大小、标准差、到达间隔时间等，对加密流量进行分类和识别，实现高效的分类和分析。

数据集

本研究利用“ISCX VPN-Non VPN 2016”数据集评估了所提方法的有效性。此数据集包括来自加密和未加密应用程序的流量，并为流量分类提供两个数据级别。第一级涉及识别应用程序的类型，例如 Facebook 或 Skype。第二级涉及识别协议类型，例如聊天或电子邮件。应用程序的流量分为PCAP文件格式，并按生成它的应用程序分类[49]。ISCX VPN-Non VPN 2016 数据集包括 6 类加密流量和 6 类未加密流量。表 4 显示了 ISCX VPN-Non VPN 2016 数据集中各种类型的流量和应用程序标记的内容。

表4 ISCX VPN-Non VPN 2016 数据集的类别

在这里插入图片描述

数据预处理

数据预处理对于深度学习模型有效解释输入数据包至关重要，如图 10 所示。在数据包和会话级别预处理原始数据流量可以全面了解网络流量。数据包级预处理对于从单个数据包中提取特征至关重要，它提供了对特定模式的精细见解。会话级别的预处理对于提取特定于会话的特征至关重要，因为加密流量在数据包级别隐藏其内容，使数据包级别的分析具有挑战性。这两种预处理方法都可以更好地了解网络流量，从而实现更准确的流量分类和对网络行为的宝贵见解。通过对两个级别的数据进行预处理，可以提取更广泛的特征并检测更复杂的流量模式。这有助于获得更精确、更可靠的流量分类结果。如下所述，数据包和会话级预处理涉及五个步骤和三个步骤。在数据包级预处理阶段执行的步骤如下：

不可用的数据包删除：真实世界的数据集可能包含无法为深度学习提供有用信息的数据包。在数据包级别，消除缺少有价值信息的数据包，以确保有效的流量分类。例如，排除了具有 SYN、ACK 或 FIN 标志集的 TCP 连接段，因为它们不提供有价值的应用程序信息。此外，应删除对识别应用程序或对流量进行分类无用的 TLS 和 DNS 密钥交换段。
数据链路标头删除：包含 MAC 地址的数据链路层标头不提供任何与流量分类相关的信息。因此，此信息将从数据包中删除。
IP 标头匿名化：在 DNN 网络中，数据包可能会根据 IP 地址进行分类，因此必须通过屏蔽对数据包 IP 标头进行匿名化处理，以防止过度拟合。匿名化可确保 DNN 网络不会根据不相关的特征对流量进行分类。
规范化和统一：在数据归一化中，每个字节被转换为一个单独的数字，并输入到深度神经网络（DNN）中。统一将数据转换为加密流量的通用表示形式，从而促进流量分类深度学习算法的设计和实现。数据缩放有助于减少过度拟合并提高泛化性能，使算法对看不见的数据更有效。可以通过将数据转换为一系列值来实现数据归一化，例如 [0-1]。将数据包从 [0-255] 扩展到 [0-1] 将确保对学习模型产生相同的影响，从而优化性能。这样可以防止一个字节不成比例地影响模型。例如，包含字节 [214， 76， 87， 95] 的数据包会为第一个字节（214）分配更高的权重，因为它的值更大。当缩放到 [0-1] 时，数据包将具有 [0.839， 0.298， 0.341， 0.372]，导致所有三个字节对学习模型的影响相同，从而确保最佳性能。
截断 – 零填充：如果输入数据不遵循固定大小，则 DNN 无法有效地计算梯度下降，从而难以或无法计算。这确保了网络架构和批量数据处理的一致性。然而，在处理可变数据长度时，网络流量和数据包级数据带来了重大挑战，这使得将此类数据直接输入到 DNN 中变得不切实际。数据截断和零填充是用于实现 DNN 网络固定大小输入的技术。数据截断将数据包长度减少到固定大小，而当原始长度低于所需大小时，使用零填充。零填充可确保不同长度的数据包的统一输入，从而促进与 DNN 架构的兼容性。

在这里插入图片描述

图 10 网络流量预处理图。

在图 11 中，图左侧的原始输入数据超出了所需的输入大小，因此需要截断。相反，图 11 右侧的原始输入数据必须超过预期的输入大小，因此需要零填充。分析数据包长度统计量以确定理想的固定截断长度。研究表明，大多数数据包携带的有效载荷不超过 1500 字节，也称为最大传输单元（MTU） [8]。作为数据包长度分析的示例，使用了 Skype audio1a.pcap 文件。如图 12 所示，对于 0 到 1500 字节的数据包长度，显示概率质量函数。推导了所有PCAP文件的数据包长度分布函数，聚合长度分布函数如图13所示。按照步骤 1-4 向 DNN 网络提供 1500 字节的规范化数据作为输入向量。在会话级别预处理流量数据包涉及以下步骤：

拆分会话：流是具有相同源、目标、端口和协议的数据包序列，而会话允许在两个方向之间交换 IP 地址。PCAP 文件被划分为多个会话，因为会话提供了比流更好的流量分类和统计特征。
提取会话功能：此步骤从原始流量中提取统计特征，以区分流量类型和应用程序。这些功能中包括数据包计数、会话持续时间和最大有效负载大小等统计功能。表3总结了本文使用的统计特征。
转换为矢量：使用 Min-Max 方法，根据会话的统计特征，收集的数据落在 [0， 1] 范围内。SAE 网络的输出将转换为特征向量。

在这里插入图片描述

图 11 截断和零填充的示例。

图 14 显示了数据包预处理的示例。如图 14 所示，数据包被转换为长度为向量1∗1500 在预处理步骤之后。预处理的数据包是数字的向量，其中每个数字代表一个数据包特征。然后，将预处理的数据包馈送到深度学习模型中。原始会话数据经过预处理以提取相关特征，然后再将预处理的特征提供给深度学习模型进行分类。图 15 显示了

在这里插入图片描述

图 14 数据包预处理示例。

在这里插入图片描述

图 15 会话预处理示例。

会话预处理示例。在图 15 中，单个会话被转换为长度的向量1∗25 预处理后。

参数

我们提出的方法采用五种深度神经网络模型：1D-CNN网络、基于注意力的Bi-LSTM网络、SAE网络、FC和GAN。这些网络的结构及其主要参数如表8所示。网络流量中数据包的顺序性需要使用1D-CNN网络，其性能优于2D-CNN网络[57]，[78]。1D-CNN 和 Bi-LSTM 网络有 1500 个输入特征，而 SAE 网络只有 25 个。1D-CNN用于构建GAN的发生器和鉴别器。SAE 网络的潜在层生成 10 个提取的统计特征，并结合 1D-CNN 和 Bi-LSTM 网络特征。最后，从三个模型中提取 1300 个特征，并将其馈送到一个全连接的网络中，以对加密流量类型进行分类并识别应用程序。总共有 12 种流量类型和 17 个应用程序。

表8 CBS模型的主要参数

在这里插入图片描述

实验性能评估

通过4个实验场景对所提模型的性能进行了评估。第一个实验旨在对通常用于区分 VPN 和非 VPN 流量的封装协议进行分类。第二个和第三个实验分别侧重于加密和未加密模式下六个类的流量分类。第四个实验解决了对常规流量和加密流量进行分类的十二类分类问题。表6总结了上述实验。

表6 实验场景的描述

在这里插入图片描述

表 11 显示了 CBS 的性能结果。结果显示，每个实验的准确率、精密度、召回率和F1得分均高于99.21%。结果表明，该模型能够提取出流量和应用分类的本质特征和实用特征，并验证了所提模型的有效性。如表11所示，两类类的准确率、精确度和召回率均高于99.67%，F1得分高于六类和十二类类。将流量分为常规和加密流量的六类类别以及 12 类流量的 F1 分数分别为 99.38%、99.42% 和 99.3%。

在这里插入图片描述

训练分析

当 CBS 模型学习了数据中的所有判别模式并且不需要额外的训练周期时，就可以实现 CBS 模型的早期收敛。这在加密流量分类中至关重要，因为它可以在不显著提高准确性的情况下稳定模型的性能。收敛所需的纪元数取决于模型的复杂性、数据集大小和质量以及所选的超参数。增加 epoch 的数量可以将模型精度提高到某个点，但超过这个点，可能会导致过度拟合。可以在训练期间调整 epoch 的数量，以通过监控模型在验证集上的性能来优化准确性并防止过度拟合。在基于深度学习的加密流量分类中，数据预处理技术可以显著影响收敛和纪元之间的关系。CBS快速融合的最重要原因如下。

预处理：模型的收敛很大程度上取决于数据预处理。通过适当的预处理技术可以提高模型的收敛速度，特别是当这些技术与数据的特征保持一致时。CBS 考虑在训练前进行全面的预处理。
特征缩放和归一化：特征缩放可以确保模型参数的更新在特征之间更加一致，从而帮助模型更快地收敛。CBS 将数据包中的每个字节从 [0-255] 缩放到 [0-1]。CBS采用[77]中概述的归一化方法。使用批量归一化可以大大减少训练深度神经网络所需的纪元。数据归一化通过消除异常值来防止过度拟合。异常值是与数据集中的大多数数据样本不同的极值。
**功能选择：**该模型可以更快地收敛，并通过减少特征来防止过度拟合。CBS 同时使用多个空间、时间和统计特征作为完整的特征集。
数据增强：CBS 使用 GAN 网络进行数据增强和平衡，以增加训练数据集的大小，使模型能够通过不同的示例学习和泛化模式。这种强大的训练过程稳定了学习过程，并可能导致更早的收敛。平衡的数据集可确保模型无偏见地遇到各种流量模式，从而成功学习底层表示和模式。
井结构数据集：复杂、嘈杂或非结构化的数据集可能会阻碍加密流量数据集的早期收敛，从而在训练过程中导致更多的训练周期。CBS 模型收敛得更快，因为它能够在结构良好的 ISCX VPN-Non VPN 2016 数据集中识别判别特征。预处理技术可以提高训练数据质量，使模型更容易学习底层模式。

CBS通过有效的预处理，实现了更高的模型精度和更快的收敛速度。图18（a）-（c）提供了对所提出模型收敛的见解。通过更精确地分析所提出的CBS模型，我们探索了性能提升更好的原因。图 18（a）和 18（b）显示了每个 epoch 结束时的训练精度、验证精度、训练损失和验证损失参数。如图18（a）和图18（b）所示，所提出的模型在训练和验证方面的平均准确率收敛良好。CBS 通过特征工程和特征提取获得了对模型学习过程的宝贵见解。此外，还根据纪元数将所提模型的精度与其他模型进行了比较。如图18（a）所示，我们提出的模型允许训练模型在最小的周期内收敛。图18（a）显示，我们的模型只需要四个收敛时期。图18（c）还显示，与其他研究模型相比，我们提出的模型在四个时期中达到了95%的准确率，并且在更少的时期内收敛。对于所有实验，初始纪元值等于 50;但是，在图 18 中，它最多只显示 20 个。在训练期间，当损失和准确率值不再显著改善时，CBS 中会出现饱和点。由于训练准确率和损失在 epoch 20 之后停止变化，因此我们不考虑 20 到 50 之后的 epoch。出于多种原因，在加密流量分类中同时使用空间、时间和统计特征可以提高 CBS 收敛性。

结合多个特征可以为深度学习模型带来更广泛、更多样化的输入范围，使其能够识别数据中的复杂模式和关系。这可以促进模型的快速收敛。
通过结合空间、时间和统计特征，可以降低过拟合的风险。当模型对于训练数据来说过于专业化时，它在新数据上的表现就会很差。这迫使模型泛化并获取更可靠的数据表示。
在深度学习算法中使用多个特征可以防止模型陷入次优解，这是一个常见问题。这是因为局部最小值会导致收敛和性能较差。使用多个功能可降低此风险。
深度学习模型可以通过组合多个特征来检测流量中的细微差别。例如，不同类型的加密流量可能具有相似的空间特征，但在时间或统计方面存在显着差异。通过整合这些特征，模型可以全面理解流量并快速收敛。

在这里插入图片描述

图 18 CBS模型和比较模型训练过程中的精度-损失变化。

图 18 中的图形具有稳定的斜率。以下解释可以证明此行为的合理性。在用于加密流量分类的CBS模型训练过程中，训练损失的稳步减少和训练准确性的提高可以表明学习过程一致且稳定。如果训练数据集平衡良好并代表真实世界的加密流量分布，则训练损失和准确性可能会稳步倾斜。由于 CBS 的架构捕获了相关特征，并且其模型具有表现力，因此训练损失和准确性可能会遵循稳定的斜率。通过提前停止也可以实现稳定的坡度。当训练期间验证损失增加时，提前停止会停止训练过程。分类任务通常使用交叉熵损失函数。训练损失和准确性可能会受到损失函数选择的影响。交叉熵损失在训练中很有帮助，因为它鼓励更准确的预测。它在训练期间指导优化过程，使模型能够收敛到卓越的结果。使用与模型的加密流量分类目标一致的适当损失函数，可以实现训练中的稳定斜率。通过适当地处理数据，可以稳步降低训练损失和准确性。

结论

流量分类在网络管理中至关重要，尤其是在加密流量使用量增加的情况下。空间或时间特征提取方法往往无法检测到某些统计特征，导致信息丢失。本文提出了一种称为CBS的综合特征集平台，该平台结合了从流量文件中提取的所有统计、空间和时间特征，用于加密流量分类。该架构采用 1D-CNN、基于注意力的 Bi-LSTM 和 SAE 模型。组合特征通过捕获输入数据的不同方面并利用每个特征的潜力进行更准确的预测来提高模型性能。所提出的模型使用GAN网络为不平衡的类生成合成样本，以解决数据集不平衡的问题。GAN 可以通过增加数据集大小和开发新的数据样本来防止过度拟合。实验和比较表明，所提出的流量表征模型具有较高的准确率、精确率、召回率和F1得分。未来，我们将探索现实世界中的加密流量分类。将开发一种在现实世界中对流数据进行分类的解决方案。

写完代码点瑞幸

关注

24
点赞
踩
16

收藏

觉得还不错? 一键收藏
2
评论
CBS:一种具有混合时空和统计特征的加密流量分类的深度学习方法

随着互联网和在线应用的快速发展，流量分类已成为计算机网络中越来越重要的话题。管理网络资源、提高服务质量和增强网络安全至关重要。由于流量加密技术，传统的流量分类方法变得无效且不准确。因此，科学界认为深度学习是一种对加密流量进行分类的高性能方法。该文提出了一种基于深度学习技术的加密流量分类方法CBS。CBS 可以使用 1D-CNN、基于注意力的 Bi-LSTM 和 SAE 深度网络模型在两个级别对加密流量进行分类。所提出的模型根据一组全面的会话和数据包级特征对流量类型和应用进行分类。
复制链接

扫一扫