Adaptive Fingerprinting: Website Fingerprinting over Few Encrypted Traffic

摘要:网站加密攻击可以推断用户通过加密网络访问哪个网站,最近的研究利用深度神经网络可以达到很高的准确率(例如98%)。然而,目前的攻击依赖于大量加密的传输数据,这些数据的收集非常耗时。此外,还需要频繁地收集大规模加密传输数据,以适应网站内容的变化。换句话说,进行网站打印的启动时间是不实际的。在本文中,我们提出了一种新的方法,称为自适应指纹识别,该方法利用对抗域自适应,可以在少量加密数据上获得较高的攻击精度。使用我们的方法,攻击者只需要收集少量的数据而不是大规模的数据集,这使得网站编码在现实世界中更加实用。我们在多个数据集上的广泛实验结果表明,我们的方法在封闭世界设置中可以在少量加密数据上达到89%的准确率,在开放世界设置中可以达到99%的精度和99%的召回率。与最近的一项研究(名为Triplet Fingerprinting)相比,我们的方法在预训练时间上更加高效,并且更具可扩展性。此外,该方法的攻击性能在封闭世界和开放世界评估中都优于三元指纹。

贡献:在本文中,我们提出了一种新的方法,称为自适应指纹识别,它可以执行网站指纹识别,并在少量加密的数据上获得较高的攻击精度,也就是说,我们的方法不需要收集大规模的数据。这减少了网站加密攻击的启动时间,使攻击在现实世界中变得实用。我们的主要想法是利用迁移学习,更具体地说,是对抗性领域自适应[10,39],将从现有的大规模数据集中学习到的知识转移到具有很少数据集(例如,每个监测网站不超过20条轨迹)的数据集上的分类。根据迁移学习文献中的定义,我们将这个现有的大规模数据集作为源数据集,将这个具有很少数据量的数据集作为目标数据集。本文的主要贡献可以概括如下:

•在自适应指纹(AF)中,我们利用对抗域自适应,更具体地说,是一个域对抗网络[10,39],通过在特征提取器和域鉴别器之间制定一个极大极小博弈[12]来学习一个或多个源数据集上的特征提取器。特征提取器或域鉴别器本质上是一个深度神经网络。将学习到的Feature Extractor提取出来,并与传统的机器学习分类器(例如,k近邻)连接,以对目标数据集进行分类。

•在我们的封闭世界评估中,我们在多个数据集上的实验结果表明,我们的方法可以在目标数据集上达到很高的准确性,每个监测网站的跟踪不超过20条。例如,我们的方法可以在100个监控网站上达到89%以上的准确率。在开放世界评价中,我们的方法可以达到99%的准确率和99%的召回率。

•与之前的方法(名为Triplet Fingerprinting[36])相比,我们的方法在预训练时间(即从源数据集中训练特征提取器的时间)方面效率更高,并且如果源数据集中有更多可用数据,则更具可扩展性。我们的方法在封闭世界评估中可以优于三重指纹,除非目标数据集中每个监控网站只有一个痕迹。

我们的研究目标。我们的研究将网站印刷作为一个迁移学习问题。具体来说,我们假设有一个大规模的数据集,称为源数据集,但它是用不同的设置收集的(例如,软件、硬件和网络协议的不同版本)。此外,根据目标用户的最新设置收集另一个数据集,称为目标数据集。然而,这个目标数据集只有很少的标记trac(更具体地说,本文中每个网站少于20条轨迹)。我们在这项研究中有两个具体的目标。首先,我们希望利用源数据集的大量数据,对目标数据集的少量数据进行高精度的网站打印。其次,我们的目标是在网站打印中进行迁移学习时提供高效的运行时间。我们研究的首要目标是最大限度地减少引导时间,包括数据收集时间和课堂训练时间,使网站打印更加实用。

通过加密流量进行迁移学习

微调[47]是迁移学习中最简单的方法之一。在预训练步骤中,该方法在源数据集上训练神经网络。在训练步骤中,该方法冻结了预训练步骤中获得的神经网络中的大部分层,并使用目标数据集的训练数据对最后几层的超参数进行了调整。最后,利用重新调整后的神经网络,利用目标数据集的测试数据推导出结果。重新调整的过程如图2所示。

加密传输的微调:先前的一项研究[36]报道了在网站编码背景下对加密传输进行微调的性能。本研究首先使用源数据集训练了一个名为DF (Deep Fingerprinting)模型[35]的神经网络。接下来,它使用目标数据集重新调优DF模型。DF模型是利用监督学习对加密数据进行分类最有效的模型之一。DF模型的结构如图3所示。

3.3三重网络

受Siamese网络[21,38]启发的三重网络[30,32]包含三个平行的相同子网络,它们共享相同的权值和超参数。将三元组网络的输入表示为三元组,三元组由锚点样本_、正样本%和负样本#组成。每个子网络只接受一种类型的样本作为输入。例如,所有锚点样本A都是一个子网络的输入,该子网络的输入中不包含任何正样本或负样本。每个三元组都是从源数据集中选择的,要么是随机的,要么是使用某种挖掘策略[36]。图4描述了使用三元网络进行迁移学习的细节。在预训练阶段,训练三元网络学习源数据的嵌入。目标是训练子网络,使锚点样本和正样本之间的距离小于嵌入空间中锚点样本和负样本之间的距离。利用三元组损失来衡量三元组网络的训练损失[30,32]。具体来说,给定一个三元组(`,%,#),丢失的函数被设计为

在训练阶段,从三元网络中提取子网络并将其用作特征提取器。一个类库,称为目标类库,附加到这个特征提取器上。该目标分类器的参数使用目标训练数据进行训练。子网中所有的超参数和权值保持不变。最后,利用子网络和训练好的分类器对目标测试数据进行结果报告。

4自适应指纹识别

领域自适应[40]是迁移学习的一种方法。域自适应通过将源数据和目标数据映射到域不变特征空间来解决域移位问题(即源数据集和目标数据集之间的差异)[37]。传统的领域自适应方法[24,40]通常通过测量最大平均差异的距离来最小化差异。

  • 24
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值