NSL-KDD数据集详细介绍及下载

链接:https://pan.baidu.com/s/1hX4xpVPo70vwLIo0gdsM8A?pwd=q88b 
提取码:q88b

        一般认为数据质量决定了机器学习性能的上限,而机器学习模型和算法的优化最多 只能逼近这个上限。因此在数据采集阶段需要对采集任务进行规划。在数据采集之前, 主要是从数据可用性、采集成本、特征可计算性、存储成本的角度进行分析,以获得尽可能 多的样本特征为基本目标。

        入侵检测的数据采集方法取决于入侵检测系统的类型,即网络入侵检测和主机入侵 检测系统。对于网络入侵检测,采用网络嗅探、网络数据包截获等方法获得流量数据。对 于主机入侵检测,采用的方法比较灵活,既可以是操作系统的各种日志,也可以是某些应 用系统的日志,还可以通过开发驻留于主机的应用软件等方法获得主机数据。因此,与网 络连接、网络请求有关的特征,以及各类日志中的特征都是入侵检测常用的数据源。

        这里介绍入侵检测领域常用的数据集,包括 NSL-KDD等,这些公开的数据集为帮助 研究人员比较不同的入侵检测方法提供了基准。NSL-KDD 数据集是通过网络数据包提 取而成,由 M.Tavallaee等于2009年构建,它克服了更早之前 KDDCup99数据集中存 在的一些问题。

NSL-KDD共使用41个特征来描述每条流量,这些特征可以分为三组。

(1)基本特征(basic features),从 TCP/IP连接中提取。

(2)流量特征(traffic features),与同一主机或同一服务相关。

(3)内容特征(content features),反映了数据包中的内容。

除此之外,每条流量都带有一个标签,即normalanomaly,表示相应的流量为正常 或异常。因此 NSL-KDD是一个二分类的异常检测数据集

        从特征工程的角度看,NSL-KDD实际上已经完成了特征工程中的特征可用性、特征 采集,以及衍生特征的定义和计算。使用该数据集进行检测实验,只要从特征清洗、特征 选择或特征提取开始就可以。

NSL-KDD每条流量的41个特征的含义如表5-1所示,表中列出了特征名称及其类 型,其中 continuous是 连 续 数 值 型,symbolic是 符 号 类 型。例 如,protocol_type属 于 symbolic类型,它的取值范围是 {t' cp','udp',i'cmp'},是一种枚举值。

从https://www.unb.ca/cic/datasets/nsl.html下载数据文件,该数据压缩文件中 包含的文件说明如下。

KDDTrain+ .TXT: 是完整的 NSL-KDD训练集,除了41个特征外,还包括数据包 类型的标签和难度等级。其中,数据包类型有 normal,以及 back、buffer_overflow、guess_ passwd、portsweep、rootkit、satan、smurf、teardrop、warezclient、warezmaster等 入 侵 类 型。难度等级表示每条记录分类时判断的难易程度,是一个[0,21]范围内的整数,数值越 大表示该记录越容易分类,0是最不容易分类的。整个数据集共125973条记录,难度等 级小于15的记录占2.94%,可以看出绝大部分记录的分类标签都是比较确切的。 

KDDTrain + .ARFF:与 KDDTrain+ .TXT 大致相同,只是每条记录不包含难度 等级,同时数据包类型的标签被归类为normal和anomaly两种。该文件带有41个特征 的属性名和类型描述,可以直接在 Weka中使用。

KDDTrain+ _20Percent.TXT:是 KDDTrain + .txt文件的20%子集,实际上是 KDDTrain+ .txt前20%的记录。

KDDTrain+ _20Percent.ARFF:是 KDDTrain+ .arff文件的20%子集。

KDDTest+ .TXT:是完整的 NSL-KDD测试集,包括攻击类型的标签和CSV 格式 的难度等级。

KDDTest+ .ARFF:是完整的 NSL-KDD测试集,带有 ARFF格式的二进制标签。

KDDTest-21.TXT:是 KDDTest+ .txt文件的子集,其中不包括难度级别为21的 记录,即该数据集中共21个难度等级。

KDDTest-21.ARFF:是 KDDTest+ .arff文件的子集,其中不包括难度级别为21 的记录,该数据集共包含21个难度等级。

内容来自:标题 (tsinghua.edu.cn),可以再结合其他博客详细了解一下。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/620052.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一文了解AI边缘计算盒子是什么产品设备

大家听说过AI边缘计算盒子吗?不知道你有没有注意到,最近这款产品设备在科技圈内可是火得不要不要的!那么,它究竟是什么东西呢?别着急,小编我今天就来给大家揭晓。 边缘计算盒子是什么? 边缘计算盒子是一种…

夏天穿什么裤子最好看?适合男生夏天穿的裤子盘点

选对合适自己的裤子真的太重要了,不仅版型合身更显高,而且质量也耐洗耐穿。但是大家都觉得现在的裤子品牌实在太多了,还有不少商家为了提升利润而使用一些劣质面料,导致出现很多负面体验。 今天我将分享如何挑选合适的裤子&#…

文心一言 VS 讯飞星火 VS chatgpt (237)-- 算法导论17.3 3题

三、考虑一个包含 n 个元素的普通二叉最小堆数据结构,它支持 INSERT 和 EXTRACT-MIN 操作、最坏情况时间均为 O(lg n) 。给出一个势数 Φ ,使得 INSERT 操作的摊还代价为 O(lg n) ,而 EXTRACT-MIN 操作的摊还代价为 O(1) ,证明它是…

MyBatis-Spring整合

引入Spring之前需要了解mybatis-spring包中的一些重要类; http://www.mybatis.org/spring/zh/index.html 什么是 MyBatis-Spring? MyBatis-Spring 会帮助你将 MyBatis 代码无缝地整合到 Spring 中。 知识基础 在开始使用 MyBatis-Spring 之前&#x…

图片超分辨率重构实战——SRGAN

数据与代码链接见文末 论文地址:Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network https://arxiv.org/abs/1609.04802v4 1.概述 通常来说,分辨率越低,图像越模糊,分辨率越高,图像越清晰,图像超分辨率重构就是将分辨率低的图像重…

Docker文档阅读笔记-How to Run GUI Based Applications inside Docker?

以后的文档阅读笔记不在一一介绍。以后只总结干货和重点。 Step 1 使用Systemctl命令启动docker服务: systemctl start docker // to start the docker service. systemctl status docker // to check the status . systemctl restart docker …

Linux系统搭建FastDFS文件服务结合内网穿透实现公网访问本地文件

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

Python学习笔记23 - 目录操作

os模块操作目录相关函数 os.path模块操作目录相关函数 案例1 —— 列出指定目录下的所有.py文件 案例2 —— walk()

Windows本地部署Ollama+qwen本地大语言模型Web交互界面并实现公网访问

文章目录 前言1. 运行Ollama2. 安装Open WebUI2.1 在Windows系统安装Docker2.2 使用Docker部署Open WebUI 3. 安装内网穿透工具4. 创建固定公网地址 前言 本文主要介绍如何在Windows系统快速部署Ollama开源大语言模型运行工具,并安装Open WebUI结合cpolar内网穿透软…

简单逆向案例,某留言板载荷参数逆向

网址:aHR0cHM6Ly9saXV5YW4ucGVvcGxlLmNvbS5jbi90aHJlYWRzL2xpc3Q/Y2hlY2tTdGF0dXM9MCZmaWQ9NTYzJmZvcm1OYW1lPSVFNyVBNiU4RiVFNSVCQiVCQSVFNyU5QyU4MSVFNSVBNyU5NCVFNCVCOSVBNiVFOCVBRSVCMCVFNSU5MSVBOCVFNyVBNSU5NiVFNyVCRiVCQyZwb3NpdGlvbj0wJnByb3ZpbmNlPTIwJmNp…

爬虫 | 垃圾处理设施数据的获取与保存

Hi,大家好,我是半亩花海。本项目通过发送网络请求(requests),从指定的 URL 获取垃圾处理设施的相关数据,并将数据保存到 CSV 文件中,以供后续分析和利用。 目录 一、项目结构 二、详细说明 三…

Oracle 21c 数据库迁移到DM8(达梦)数据库

一、环境准备 1、创建脚本 执行dmCreateUser.sql脚本创建GLJ用户(注意:需要与需要迁移的oracle用户名一样),如,脚本内容如下: -- 开始将输出重定向到指定的日志文件 spool start /home/dmdba/dmdbms/sql/…