Discovering Exfiltration Paths Using Reinforcement Learning with Attack Graphs（2022）

最新推荐文章于 2024-09-14 20:30:05 发布

工控小白2021

最新推荐文章于 2024-09-14 20:30:05 发布

阅读量323

点赞数 1

分类专栏：强化学习文章标签：算法神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45877880/article/details/125123010

版权

文章提出了一种RL方法，通过攻击图在动态网络结构中寻找最优的渗透路径。利用MDP构建攻击图，RL代理模型分为演员和评论家，用于扫描网络和执行渗透测试。实验评估展示了不同风险策略下发现的渗透路径，为网络风险管理提供定量工具。

摘要由CSDN通过智能技术生成

Discovering Exfiltration Paths Using Reinforcement Learning with Attack Graphs（2022）

一、介绍
二、RL
三、MDP构建攻击图
四、实验评估
五、总结

一、介绍

文章提出了一种在攻击图中发现渗透路径的RL方法，在攻击图的动态模型中对基于服务的防御性网络结构进行建模，发现最优的N条攻击路径。

二、RL

RL通过与环境交互来学习，描述了一组近似动态规划的求解方法，环境通常通过MDP建模，被定义为一个五元组{状态，动作，状态-动作对，概率转移函数，期望的奖励函数}。

目前主要的两种RL方式：

基于值：他们试图找到或近似最佳值函数，这是一个动作和一个值之间的映射。值越高，动作越好。最著名的算法是Q学习及其所有增强的方法，例如Deep Q Networks，Double Dueling Q Networks等。
基于策略的：基于策略的算法（例如“ 策略梯度” 和REINFORCE）尝试直接找到最佳策略，而无需Q值作为中间步骤。

当这两个算法流行以后，下一个显而易见的步骤是……尝试合并它们。这就是演员——评论家的诞生方式。演员评论家旨在利用基于价值和基于策略的优点，同时消除其弊端。

主要思想是将模型分为两部分：一个用于基于状态计算动作，另一个用于估计动作的Q值。

参与者演员可以是类似于神经网络的函数逼近器，其任务是针对给定状态产生最佳动作。当然，它可以是全连接的神经网络，也可以是卷积或其他任何东西。评论家是另一个函数逼近器，它接收参与者输入的环境和动作作为输入，将它们连接起来并输出评分值（Q值）。

Q值实际上可以分解为两部分：

最低0.47元/天解锁文章

工控小白2021

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。