强化学习笔记2

  • 第二章

    • 免模型预测

      • 在无法获取马尔可夫决策过程的模型情况下,我们可以通过蒙特卡洛方法和时序差分方法来估计某个给定策略的价值

      • 蒙特卡洛策略评估

        • 蒙特卡洛方法是基于采样的方法,给定策略 π,我们让智能体与环境进行交互,可以得到很多轨迹

        • 蒙特卡洛仿真是指我们可以采样大量的轨迹,计算所有轨迹的真实回报,然后计算平均值

        • 优势

          • 首先,蒙特卡洛方法适用于环境未知的情况,而动态规划是有模型的方法

          • 蒙特卡洛方法只需要更新一条轨迹的状态,而动态规划方法需要更新所有的状态

      • 时序差分

        • 时序差分是介于蒙特卡洛和动态规划之间的方法,它是免模型的,不需要马尔可夫决策过程的转移矩阵和奖励函数。时序差分方法可以从不完整的回合中学习, 并且结合了自举的思想

        • 时序差分方法的目的是对于某个给定的策略 π,在线(online) 地算出它的价值函数 Vπ,即一步一步地(step-by-step)算

      • 两种方法比较

        • (1)时序差分方法可以在线学习(online learning),每走一步就可以更新,效率高。蒙特卡洛方法必须等游戏结束时才可以学习。

        • (2)时序差分方法可以从不完整序列上进行学习。蒙特卡洛方法只能从完整的序列上进行学习。

        • (3)时序差分方法可以在连续的环境下(没有终止)进行学习。蒙特卡洛方法只能在有终止的情况下学习。

        • (4)时序差分方法利用了马尔可夫性质,在马尔可夫环境下有更高的学习效率。

    • 免模型控制

      • Sarsa:同策略时序差分控制

        • 时序差分方法是给定一个策略,然后我们去估计它的价值函数。接着我们要考虑怎么使用时序差分方法的框架来估计 Q 函数,也就是 Sarsa 算法。

      • Q 学习:异策略时序差分控制

        • Sarsa 是一种同策略(on-policy)算法,它优化的是它实际执行的策略,它直接用下一步会执行的动作去优化 Q 表格

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值