Discovering Exfiltration Paths Using Reinforcement Learning with Attack Graphs(2022)
一、介绍
文章提出了一种在攻击图中发现渗透路径的RL方法,在攻击图的动态模型中对基于服务的防御性网络结构进行建模,发现最优的N条攻击路径。
二、RL
RL通过与环境交互来学习,描述了一组近似动态规划的求解方法,环境通常通过MDP建模,被定义为一个五元组{状态,动作,状态-动作对,概率转移函数,期望的奖励函数}。
目前主要的两种RL方式:
- 基于值:他们试图找到或近似最佳值函数,这是一个动作和一个值之间的映射。 值越高,动作越好。 最著名的算法是Q学习及其所有增强的方法, 例如Deep Q Networks,Double Dueling Q Networks等。
- 基于策略的:基于策略的算法(例如“ 策略梯度” 和REINFORCE)尝试直接找到最佳策略,而无需Q值作为中间步骤。
当这两个算法流行以后,下一个显而易见的步骤是……尝试合并它们。 这就是演员——评论家的诞生方式。 演员评论家旨在利用基于价值和基于策略的优点,同时消除其弊端。
主要思想是将模型分为两部分:一个用于基于状态计算动作,另一个用于估计动作的Q值。
参与者演员可以是类似于神经网络的函数逼近器,其任务是针对给定状态产生最佳动作。 当然,它可以是全连接的神经网络,也可以是卷积或其他任何东西。 评论家是另一个函数逼近器,它接收参与者输入的环境和动作作为输入,将它们连接起来并输出评分值(Q值)。
Q值实际上可以分解为两部分: