强化学习RL学习

强化学习极简入门:通俗理解MDP、DP MC TC和Q学习、策略梯度、PPO

一文通透优化算法:从梯度下降、SGD到牛顿法、共轭梯度(23修订版)_共轭梯度下降法-CSDN博客

梯度下降算法:

SGD:

小批量梯度下降

换言之,对于每更新一次θ,传统梯度下降算法 遍历整个数据集m个样本,SGD则每更新一次θ 遍历1个样本,而小批量梯度下降每更新一次θ 遍历b个数据样本,b取值范围通常介于2~100之间。

强化学习

总的而言,Agent依据策略决策从而执行动作action,然后通过感知环境Environment从而获取环境的状态state,进而,最后得到奖励reward(以便下次再到相同状态时能采取更优的动作),然后再继续按此流程“依据策略执行动作-感知状态--得到奖励”循环进行。

最优模型 = arg minE { [损失函数(标签,模型(特征)] }

最优策略 = arg maxE { [奖励函数(状态,动作)] }
 

进一步,RL为得到最优策略从而获取最大化奖励,有

    基于值函数的方法,通过求解一个状态或者状态下某个动作的估值为手段,从而寻找最佳的价值函数,找到价值函数后,再提取最佳策略
    比如Q-learning、DQN等,适合离散的环境下,比如围棋和某些游戏领域
    基于策略的方法,一般先进行策略评估,即对当前已经搜索到的策略函数进行估值,得到估值后,进行策略改进,不断重复这两步直至策略收敛。

RL其实是一个马尔可夫决策过程(Markov decision process,MDP),而为说清楚MDP,得先从随机过程、马尔可夫过程(Markov process,简称MP)开始讲起。

在马尔可夫过程(MP)的基础上加入奖励函数R和折扣因子γ,就可以得到马尔可夫奖励过程(MRP)。

价值函数:

上述例子的状态比较少所以计算量不大,但当状态一多,则贝尔曼方程的计算量还是比较大的,而求解较大规模的马尔可夫奖励过程中的价值函数时,可以用的方法包括:动态规划、蒙特卡洛方法、时序差分(temporal difference,简称TD)方法。后面挨个介绍这三种方法。

策略函数:

V和Q函数:

V和Q函数的关系:

1、Q到V

2、V到Q

总:

RL和动态规划DP:

综合,可得:

DP求解最优策略的算法流程:

RL和蒙特卡洛法

RL和时序差分法

总之,TD结合了DP和MC,与DP一致的点时与MC不一致,与DP不一致的点时恰又与MC一致

没细看这块。

RL分类——基于模型 与 不基于模型(Value-base/Policy-based)

无模型的强化学习:

基于价值的强化学习(Value-based RL)。最经典的便是off-policy模式的Q-learning和on-policy模式的SARSA

基于策略的强化学习(Policy-based RL)。其对策略进行进行建模π(s,a)并优化,一般得到的是随机性策略。

  • 20
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值