【笔记】机器学习算法在异常网络流量监测中的应用

news/2024/9/20 23:43:41/文章来源:https://www.cnblogs.com/soaring27221/p/18423454

这段时间在找方向,又看不懂文章,只能先从一些相对简单的综述类看起,顺便学学怎么写摘要相关工作的。

机器学习算法在异常网络流量监测中的应用

原文:Detecting Network Anomalies in NetFlow Traffic with Machine Learning Algorithms

原文链接:Detecting Network Anomalies in NetFlow Traffic with Machine Learning Algorithms | IEEE Conference Publication | IEEE Xplore

Abstract

及早发现网络流量数据中的异常对于强大的网络安全至关重要。本研究调查了各种机器学习和深度学习模型在识别 NetFlow v9 流量中的异常模式方面的有效性。我们解决了数据预处理挑战,并探索了特征工程技术,以优化异常检测系统的性能。我们的研究根据准确性、曲线下面积 (AUC) 和计算效率等关键指标评估了几个模型的性能。结果突出了每种模型的优势和局限性,强调了平衡性能与实际部署可行性的重要性。随机森林成为最有效的模型,准确率为 93.8%,AUC 为 0.99。此外,它还展示了卓越的训练和测试时间,训练时间仅为 0.19 秒,每次预测仅需 0.23 微秒。相反,递归神经网络模型在训练效率和整体性能方面表现出局限性。通过对模型性能和计算考虑因素的细致分析,本研究有助于推进网络安全应用的异常检测技术。

关键词:异常检测、深度学习、逻辑回归、机器学习、朴素贝叶斯、网络流量、随机森林、递归神经网络。

Anomaly Detection, Deep Learning, Logistic Regression, Machine Learning, Naive Bayes, NetFlow Traffic, Random Forest, Recurrent Neural Network

AUC是机器学习领域的一种模型评估指标。关于AUC:模型评估指标 AUC 和 ROC,这是我看到的最透彻的讲解 (qq.com)

1 Introduce

网络流量异常检测的重要性balabala(略)

传统的异常检测方法是基于规则的,基于静态规则的系统比较死板,越来越难以满足不断变化的网络。机器学习 (ML) 技术已成为在 网络流量中自动检测异常或者恶意流量的强大工具,它利用数据中固有的模式和关系来区分正常和异常行为。

在本文中,介绍了使用多个 ML 模型对网络流量异常检测进行的全面研究。具体来说,我们旨在选择和比较三种广泛使用的传统 ML 算法:逻辑回归 (LR)朴素贝叶斯分类器 (NB)随机森林 (RF),以及深度学习 (DL) 算法递归神经网络 (RNN)。这些算法提供了多种异常检测方法,从概率模型到集成方法和深度学习架构。我们的研究旨在通过评估这些不同的 ML 模型在检测各种类型的网络异常(包括入侵尝试拒绝服务 (DoS) 攻击和内部威胁)方面的性能,为网络安全和异常检测领域做出贡献。通过广泛的实验和比较分析,我们试图确定每个模型在准确性、效率、可扩展性和可解释性方面的优势和劣势,从而为它们在不同网络环境中实际部署的适用性提供有价值的见解。通过利用广泛的数据集并采用相关的评估指标,包括准确率、精度、召回率、F1 分数和 AUC(曲线下面积),并考虑训练和测试持续时间,我们的目标是确定最有希望增强异常检测能力的算法。

本文的其余部分组织如下。第2部分回顾了异常检测和 ML 领域的相关工作。第3部分揭示了我们选择最有效异常检测算法的方法。在第4节中,我们介绍了我们的实验结果和分析,然后讨论了我们的发现。最后,第5节总结了本文的主要发现和未来研究的方向。

2 Related work

近年来,机器学习和深度学习技术在各个领域的使用激增。

这一部分主要概述了机器学习和深度学习在各个学科领域多样化的应用,并且重点关注了网络异常流量检测方面的应用。

Fosic 等人在Anomaly detection in netflow network traffic using supervised machine learning algorithms这篇文章中研究了不同的分类器在检测网络流量异常方面的有效性。通过在 UNSW-NB15 数据集上评估随机梯度下降 (SGD)、支持向量机(SVM)、K最近邻(KNN)、高斯朴素贝叶斯 (GNB)、决策树 (DT)、RF 和 AdaBoost (AB) 等算法,它确定了最佳参数和编码方法。鉴于数据集的分布不平衡,F1 分数和 AUC 等性能指标与标准指标一起使用。RF 分类器是最有效的,通过利用数据集的代表性子集,实现了 97.68% 的 F1 分数和 98.47% 的 AUC 分数。值得注意的是,这项研究比较了各种算法并选择了最适合 NetFlow 数据流的算法。此外,这篇文章还介绍了 ML 流程中的优化,探讨了数据比率、编码方法和特征缩减技术对 NetFlow 数据流的影响。

Pranto 等人在Performance of machine learning techniques in anomaly detection with basic feature selection strategy-a network intrusion detection system中提出了一种使用机器学习将来自网络入侵检测系统 (NIDS)的传入网络流量分类为正常或异常的方法。使用 NSL-KDD 数据集评估了几个分类器,包括 KNN、DT、NB、LR、RF 及其集成方法。为了简化计算复杂性和数据集维度,采用了一种基本的特征选择策略。达到的最高准确率为 99.5%,误报率为 0.6%。

Biswas 等人在 Anomaly detection using ensemble random forest in wireless sensor network中提出了一种用于无线传感器网络 (WSN) 异常检测的集合射频 (ERF)。该集成将 DT、 NB 和 KNN 作为基本学习器,并在 RF 构造采样期间采用 bootstrapping。为了评估 ERF 的有效性,使用了来自基于多传感器数据融合 (AReM) 数据集的活动识别的真实传感器数据。作者采用了各种性能指标,包括准确性、灵敏度、特异性、精度、召回率、F 度量和 G 平均值,以证明 ERF 优于其单个基本学习者。

Manimurugan 等人在Iot-fog-cloud model for anomaly detection using improved naïve bayes and principal component analysis中集成了云计算和雾计算的功能,用于强大的智慧城市基础设施。他们提出的方法利用了云和雾计算的优势:云存储用于海量数据,雾计算用于本地化、实时的服务交付。此外,还引入了改进的 NB (INB) 分类器,结合了主成分分析 (PCA) 用于特征提取。利用 UNSW-NB15 数据集,这种基于 PCA 的特征工程和 INB 分类实现了惊人的 92.4% 准确率和 95.35% 的检出率,显著增强了物联网网络的异常检测能力。

由于 IoT 设备和服务的激增,管理网络安全变得更具挑战性。深度学习技术在 NIDS 中广泛用于识别恶意流量,具有长短期记忆 (LSTM)、双向 LSTM (BiLSTM) 和门控循环单元 (GRU) 等 RNN 变体。Ullah 等人在Design and development of rnn anomaly detection model for iot networks中介绍了一种用于物联网网络异常检测的新型 DL 方法,该方法利用 LSTM、BiLSTM 和 GRU 变体以及混合 CNN-RNN 模型。使用包括 NSL-KDD、BoT IoT、IoT-NI、IoT-23、MQTT、MQTTset 和 IoT-DS2 恶魔在内的数据集进行评估,与现有实施相比,在准确性、精度、召回率和 F1 分数方面具有卓越的性能。

Hooshmand 等人在Network anomaly detection using deep learning techniques中提出了一种使用卷积神经网络 (CNN) 解决网络异常的新方法,CNN 是 ML 和计算机视觉中一种成熟的架构。具体来说,作者提出了一个为这项任务量身定制的一维 CNN 模型。最初,网络流量数据分为 TCP、UDP 和其他协议。随后,每个类别都经过独立处理。在模型训练之前使用卡方技术进行特征选择,然后进行过采样以解决类不平衡问题。使用公共数据集 UNSW-NB15 数据集的实验评估证明了所提出的方法的有效性,TCP、UDP 和其他类别的加权平均 F1 分数分别为 0.85、0.97 和 0.86。

Wong 等人在Real-time detection of network traffic anomalies in big data environments using deep learning models中研究了 DL 在大规模数据环境中自动检测异常谎言。使用在网络流数据上训练的 CNN 和 LSTM 模型,与传统方法相比,所提出的框架实现了卓越的异常检测性能。此外,这些 DL 模型以最小的延迟实时处理流数据。迁移学习和模型压缩等优化技术进一步提高了检测效率。此外,Altulaihan 等人在Anomaly detection ids for detecting dos attacks in iot networks based on machine learning algorithms中研究了一种基于 IDS 的防御机制,该机制采用异常检测和 ML 技术来监控网络流量的异常情况。使用数据集 IoTID20 的评估证明了该方法的有效性,使用 GA 选择的特征训练的 DT 和 RF 分类器显示出前景。这凸显了 ML 在增强 IoT 网络安全以应对 DoS 攻击方面的潜力,并为解决 IoT 环境中新出现的网络安全挑战提供了见解。

Chew 等人在A survey on vehicular traffic flow anomaly detection using machine learning中全面研究了 ML 在车辆交通流异常检测中的应用,以实现有效的交通管理、公共安全和转运优化。快速识别异常交通状况有助于及时响应和做出明智的决策,以缓解拥堵并提高交通效率。他们的调查探讨了利用 ML 检测流量异常的技术复杂性,研究了流量异常检测的各个方面,包括数据源、处理方法、机器学习算法和现场常用的评估指标。此外,它还探索了新兴的研究方向,提供了通过先进的 ML 技术改进异常检测的路线图。

检测和缓解网络攻击至关重要,但分析单个网络数据包的传统方法存在局限性,尤其是对于处理大量流量的路由器。Campazas 等人在Malicious traffic detection on sampled network flow data with novelty-detection based models中旨在使用以 1/1,000 数据包采样率收集的流数据来检测恶意流量。在合成上采用基于异常检测的模型和来自 RedCAYLE 的真实流数据,显示了基于新颖性检测的模型在实现高精度和最小误报方面的有效性。

这些研究展示了 ML 和 DL 技术在各个领域的多功能性和有效性。虽然一些例子揭示了 RF 等传统 ML 模型的优越性,但值得强调的是,根据每个应用程序的特定需求选择最合适的模型才是最重要的。

3 Methodology and experiment design

4 Experimental results

(这俩直接翻原文吧)

5 Conclusion

总而言之,我们的研究强调了 NetFlow 流量数据中异常检测固有的复杂性和挑战。我们的研究结果强调了选择在性能和计算效率之间取得平衡的适当模型的重要性。虽然 DL 模型在捕获数据中的复杂模式方面很有希望,但它们的实际效用可能会受到计算约束和数据适应能力的限制。相反,传统的 ML 模型在性能和计算效率之间提供了平衡,但可能难以捕获数据中的复杂关系。

在我们的实验中,RF 模型的卓越性能体现了集成学习技术在异常检测任务中的有效性。RF 不仅表现出高准确度、精密度、召回率和 F1 分数值,而且只需最少的参数调整工作,使其非常适合计算资源和时间限制是关键考虑因素的实际部署场景。我们的研究表明,RF 模型为为网络安全应用开发强大且可扩展的异常检测系统提供了一条有前途的途径。

总之,我们的研究为网络流量中的异常检测提供了有价值的见解,并强调了采用细致入微的方法的重要性,该方法在为网络安全挑战开发有效的解决方案时要考虑模型的有效性和计算可行性。展望未来,未来的研究工作应侧重于探索融合 DL 和传统 ML 技术优势的混合方法。通过将 DL 模型的算法与传统 ML 算法的效率相结合,研究人员可以开发更强大且可扩展的异常检测系统,能够解决网络安全中不断变化的威胁。探索在线学习和动态模型适应自身相似的网络流量上下文也会很有趣。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/800781.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

画5.0

chino 最近摆烂过头了,博客都没有好好更新。 这位想必人尽皆知。

opencascade Bnd_OBB源码学习 OBB包围盒

opencascade Bnd_OBB OBB包围盒前言 类描述了定向包围盒(OBB),比轴对齐包围盒(AABB)更紧密地包围形状的体积。OBB由盒子的中心、轴以及三个维度的一半定义。与AABB相比,OBB在作为非干扰物体的排斥机制时可以更有效地使用。 方法 1. 空构造函数 //! 空构造函数 Bnd_OBB() …

Scala安装与环境配置详解教程

本文参考来源: http://mengmianren.com/zhihuishu2020/641069.htmlScala运行在java的JVM之上,因此需要先安装Java运行环境 一、JDK8的下载和安装及环境变量配置 使用的jdk版本是:jdk-8u191-windows-i586.exe https://pan.baidu.com/s/1RNNb7lcqKHC_2h0iiTlqFg?pwd=9t5e 提取…

day2-2

今天进行了一次小测验,仍与基础的增删改查有关。 题目的要求是通过Java写出一个建议系统,能够历遍输出各个数据,能够添加,删除,修改数据,能够根据编号查找到对应的数据。程序如下该程序能够完成这些要求,也具有一定的健全性。

大学C++程序设计课程开发指南——开发环境搭建

前言 由于某些大学程序设计课程仍然在使用VC6.0这一上古工具,不太适合学生与现代开发生产接轨,并且也有可能出现兼容问题等,故编写此文,仅供参考。 使用 Visual Studio 在介绍Visual Studio(此后简称VS)前,先给大家介绍这一工具的发展。 其前身正是VC6.0(全称Visual C++…

LLM DATASET

大模型的能力来源 https://arxiv.org/pdf/2402.18041 大模型合规来源 https://arxiv.org/html/2402.12193v2 大模型的罪恶检测来源 https://www.kaggle.com/datasets/odins0n/ucf-crime-dataset/data code math https://github.com/mlabonne/llm-datasetsMath & LogicLLMs …

2024-9-20

ArrayList类 获取元素

在链接与运行地址不同时gdb的调试方法

搭建一个链接和运行不同的环境 SECTIONS {. = 0xffff000000080000,/* . = 0x80000, */.text.boot : { *(.text.boot) }.text : { *(.text) }.rodata : { *(.rodata) }..... }-s还可以看到符号都链接到高地址去了但是elf文件中有详细的地址信息,如果后续qemu加载的是elf的话就会…

排队论——随机服务系统仿真精解

排队论作为研究随机服务系统的重要工具,专门研究系统中客户到达、排队、服务和离开的过程。排队论的核心目的是通过数学建模和分析,研究系统的性能指标,如平均等待时间、队列长度、系统的吞吐量等。虽然排队论提供了强大的数学工具来分析随机服务系统,但在许多复杂的实际问…

opencascade Adaptor3d_Curve源码学习

opencascade Adaptor3d_Curve 前言用于几何算法工作的3D曲线的根类。 适配曲线是曲线提供的服务与使用该曲线的算法所需服务之间的接口。 提供了两个派生具体类:GeomAdaptor_Curve,用于Geom包中的曲线 Adaptor3d_CurveOnSurface,用于Geom包中表面上的曲线。 用于评估BSpline…

IDEA 换了电脑,如何导入和导出配置?

前言 我们在使用IDEA开发时,经常会设置各种各样的配置,时间一长,就会有很多个性化的东西。用起来也越来越顺手。不过这里可能会有个问题,那就是哪一天我们要换个电脑了,或者想安装新版本的IDEA时,又得重新配置下来。这复杂度堪比重装系统后的各种安装软件。那么,我们有没…

csp2024 游寄

不知不觉中,学OI已经一年了啊 day -\(\infty\) 打了一场模拟赛 喜提历史最好成绩:颓颓颓 day -6 做了一下去年的初赛 喜提57.5(SD分数线76 尸体不好了/tu day -5 又是模拟赛,达到历史最差成绩:不会打表导致的(确信 咋办啊有点慌。。。。。 day -4 开始去b站搜视频,搞初赛…