探索NSL-KDD数据集：入侵检测的起点

最新推荐文章于 2024-08-20 21:42:22 发布

mh007cc

最新推荐文章于 2024-08-20 21:42:22 发布

阅读量1.3k

点赞数 22

分类专栏： NSL-KDD入侵检测系统的设计与实现系列文章标签：网络安全 python 机器学习网络攻击模型

本文链接：https://blog.csdn.net/weixin_51756171/article/details/140809063

版权

NSL-KDD入侵检测系统的设计与实现系列专栏收录该内容

3 篇文章 3 订阅

订阅专栏

引言

在信息安全的世界里，数据集是我们最宝贵的资源。就像厨师离不开食材，数据科学家也离不开数据集。对于入侵检测系统（IDS）而言，NSL-KDD数据集无疑是一个经典的选择。今天，我们将深入探讨这个数据集，帮助你理解它的结构、内容以及如何利用它来构建强大的IDS。准备好了吗？让我们开始吧！

NSL-KDD数据集简介

NSL-KDD数据集是KDD Cup 1999数据集的改进版本。KDD Cup 1999数据集因其冗余和不平衡问题而广受批评。NSL-KDD数据集通过删除冗余记录和重新平衡样本，解决了这些问题，使其成为机器学习研究中的标准数据集之一。

NSL-KDD数据集包含41个特征和一个标签，特征包括基本特征、内容特征和基于流量的特征。标签用于标识连接是正常（normal）还是攻击（attack）。攻击类型分为四类：DOS（拒绝服务攻击）、R2L（远程到本地攻击）、U2R（用户到根攻击）和Probe（探测攻击）。

数据集下载：

官网地址：NSL-KDD | Datasets | Research | Canadian Institute for Cybersecurity | UNB

百度网盘：https://pan.baidu.com/s/1hX4xpVPo70vwLIo0gdsM8A?pwd=q88b

数据格式及描述

NSL-KDD数据集是用于网络入侵检测研究的著名数据集，它是KDD Cup 1999数据集的一个改进版本。

数据集组成：NSL-KDD数据集包含多个子数据集，主要有以下几种格式的文件：

KDDTrain+.ARFF：完整的训练集，包含二进制标签，ARFF格式。
KDDTrain+.TXT：完整的训练集，包括攻击类型标签和难度等级，CSV格式。
KDDTrain+_20Percent.ARFF：KDDTrain+.arff文件的20%子集。
KDDTrain+_20Percent.TXT：KDDTrain+.txt文件的20%子集。
KDDTest+.ARFF：完整的测试集，包含二进制标签，ARFF格式。
KDDTest+.TXT：完整的测试集，包括攻击类型标签和难度等级，CSV格式。
KDDTest-21.ARFF：KDDTest+.arff文件的子集，不包含难度级别为21的记录。
KDDTest-21.TXT：KDDTest+.txt文件的子集，不包含难度级别为21的记录。

数据集内容与结构

NSL-KDD数据集的特征包括：

基本特征：这些特征描述了网络连接的基本属性，如持续时间、协议类型和服务类型等。
内容特征：这些特征捕获了网络连接的数据内容，如登录尝试次数和文件创建次数等。
基于流量的特征：这些特征基于过去两秒内网络流量的统计数据，如与同一主机或服务的连接数。
数据集组成：NSL-KDD数据集由四个子数据集组成，分别是KDDTest+、KDDTest-21、KDDTrain+、KDDTrain+_20Percent。其中，KDDTest-21和KDDTrain+_20Percent是KDDTrain+和KDDTest+的子集。
特征类型：数据集中的特征可以分为基本特征、流量特征和内容特征。基本特征从TCP/IP连接中提取，流量特征与同一主机或服务相关，内容特征反映了数据包的内容。
数据集优势：与原始KDD数据集相比，NSL-KDD数据集不包含训练集中的冗余记录，测试集中没有重复记录，使得检测率更为准确。

以下是NSL-KDD数据集的41个特征及其标签的详细信息：

特征名称	用法及意图
duration	连接持续时间（秒），用于判断连接是否异常长。
protocol_type	连接使用的协议类型（TCP、UDP、ICMP），不同攻击类型通常使用不同协议。
service	连接请求的服务类型（http、ftp、smtp等），帮助识别针对特定服务的攻击。
flag	连接状态标志位，检测连接的状态（如正常终止、错误等）。
src_bytes	从源到目标的字节数，用于判断流量异常。
dst_bytes	从目标到源的字节数，判断回送流量异常。
land	如果源IP地址和目标IP地址相同则为1，否则为0，用于检测Land攻击。
wrong_fragment	错误片段数，检测分片攻击。
urgent	紧急包数，检测紧急数据包攻击。
hot	热连接数量，检测可疑的连接活动。
num_failed_logins	登录失败次数，检测猜测密码攻击。
logged_in	如果成功登录则为1，否则为0，检测未授权访问。
num_compromised	被攻击的次数，检测系统受损程度。
root_shell	如果获得根shell则为1，否则为0，检测U2R攻击。
su_attempted	如果尝试过su命令则为1，否则为0，检测尝试提升权限的攻击。
num_root	使用root权限的命令数，检测获得root权限后的行为。
num_file_creations	创建文件数，检测可疑文件创建活动。
num_shells	使用shell的次数，检测恶意shell活动。
num_access_files	访问文件数，检测未授权文件访问。
num_outbound_cmds	向外发送的命令数，仅在ftp会话中有效，检测FTP攻击。
is_host_login	如果登录主机则为1，否则为0，检测主机攻击。
is_guest_login	如果登录为访客则为1，否则为0，检测访客攻击。
count	过去两秒内与同一主机的连接数，检测同一主机的连接行为。
srv_count	过去两秒内与同一服务的连接数，检测同一服务的连接行为。
serror_rate	过去两秒内连接出现错误的比例，检测服务错误率。
srv_serror_rate	过去两秒内服务连接出现错误的比例，检测服务错误率。
rerror_rate	过去两秒内连接被重置的比例，检测连接重置率。
srv_rerror_rate	过去两秒内服务连接被重置的比例，检测服务连接重置率。
same_srv_rate	过去两秒内同一服务连接的比例，检测服务连接模式。
diff_srv_rate	过去两秒内不同服务连接的比例，检测服务连接多样性。
srv_diff_host_rate	过去两秒内连接不同主机的比例，检测主机连接多样性。
dst_host_count	目标主机的连接数，检测目标主机的连接负载。
dst_host_srv_count	目标主机的服务连接数，检测目标主机的服务连接负载。
dst_host_same_srv_rate	目标主机的同一服务连接比例，检测目标主机的服务连接模式。
dst_host_diff_srv_rate	目标主机的不同服务连接比例，检测目标主机的服务连接多样性。
dst_host_same_src_port_rate	目标主机的同一源端口连接比例，检测目标主机的源端口连接模式。
dst_host_srv_diff_host_rate	目标主机的不同服务连接比例，检测目标主机的服务连接多样性。
dst_host_serror_rate	目标主机的连接错误比例，检测目标主机的错误率。
dst_host_srv_serror_rate	目标主机的服务连接错误比例，检测目标主机的服务错误率。
dst_host_rerror_rate	目标主机的连接重置比例，检测目标主机的重置率。
dst_host_srv_rerror_rate	目标主机的服务连接重置比例，检测目标主机的服务重置率。

标签名称	用法及意图
标签（label）	标识连接是正常（normal）还是攻击（attack），用于训练和评估机器学习模型。