ISCXTor2016数据集(Tor-nonTor dataset)介绍

简介

  ISCXTor2016数据集是UNB(University of New Brunswick)发布的Tor流量有标签数据集。这个大学发布了很多网络安全领域的数据集,包括广泛使用的NSL-KDD数据集和CICIDS2017数据集。本文对该数据集进行尽可能详细的介绍。

数据集生成

  为了生成现实世界流量的代表性数据集,作者定义了一组任务,以确保数据集具有足够的多样性和条目数。作者为用户Alice和Bob创建了帐户,以便使用Skype,Facebook等服务。数据集包含来自超过18种代表性应用程序(例如,facebook,skype,spotify,gmail等)的以下8种类型的流量(browsing, chat, audio-streaming, video-streaming, mail, VOIP, P2P 和 File Transfer)。
   Tor流量捕获场景如图1所示。图出自参考文献中的论文。
图1 Tor流量捕获场景

图1 Tor流量捕获场景

   工作站通过网关虚拟机连接到Internet,后者又通过Tor网络路由所有流量。通过此配置,在工作站虚拟机上使用Tor网络变得透明。作者同时捕获了工作站和网关处的传出流量,并收集了两个.pcap文件:一个常规流量(工作站)pcap文件和一个Tor流量ÿ

### Tor-NonTor 流量分类模型 #### 数据准备 为了构建有效的 Tor-NonTor 流量分类模型,数据集应具备足够的多样性和条目数量。该数据集中包含了来自多个代表性应用程序的流量记录,这些应用涵盖了常见的互联网活动类别,如浏览、聊天、音频流媒体、视频流媒体、邮件、VOIP、P2P 和文件传输等[^1]。 对于每一种应用类型的数据收集,研究者们通过模拟真实用户的在线行为来生成相应的网络通信模式。例如,在实验设置中为用户 Alice 和 Bob 创建了账户用于访问 Skype、Facebook 等服务,从而获得更贴近实际环境下的样本特征。 #### 特征提取 针对不同类型的应用程序产生的流量特性差异较大,因此需要设计合理的特征向量表示方法: - **时间序列统计**:计算包长度分布、到达间隔时间直方图以及会话持续期间内的平均速率变化趋势。 - **协议栈分析**:解析 TCP/IP 协议头部字段信息,比如端口号可以指示特定的服务;TLS 握手过程中的 Server Name Indication (SNI) 可能暴露网站域名。 - **加密前后对比**:虽然 Tor 加密掩盖了许多原始细节,但仍可通过观察封装后的报文结构特点来进行间接推断。 ```python import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler from sklearn.ensemble import RandomForestClassifier # 假设 df 是已经预处理好的 DataFrame X = df.drop('label', axis=1).values # label 表示是否为 Tor 流量 y = df['label'].values # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y) scaler = StandardScaler() X_train_scaled = scaler.fit_transform(X_train) X_test_scaled = scaler.transform(X_test) clf = RandomForestClassifier(n_estimators=100) clf.fit(X_train_scaled, y_train) accuracy = clf.score(X_test_scaled, y_test) print(f'Accuracy on test set: {accuracy:.4f}') ``` 此代码片段展示了如何利用随机森林算法实现简单的二元分类器,即判断给定的一段流量是不是经过 Tor 路由过的。当然,这只是一个基础框架,具体的性能优化还需要进一步调整参数并引入更多高级技术手段。 #### 模型评估与验证 采用交叉验证的方式对所建立的分类体系进行全面评测,确保其泛化能力良好,并且能够在未知条件下保持较高的准确性。同时也要注意防止过拟合现象的发生,使得模型不仅适用于现有的已知应用场景,也能够应对未来可能出现的新情况。
评论 372
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值