强化学习心得

强化学习心得

[说明]
1.这是百度NeurIPS全球顶会冠军团队授课,带你从零实践强化学习。以下是自己的一些心得笔记,在这里分享出来,希望对大家有所帮助。
2.如果大家发现这篇文章的任何问题,欢迎与我联系。

Part1
1.什么是强化学习
强化学习是机器学习的范式和方法论之一,强调如何基于环境而行动,在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

在这里插入图片描述

2.强化学习相关算法
强化学习算法可分为基于模型和无模型两类。基于模型的算法用动态规划求解,包括:值迭代和策略迭代;而无模型的求解方法包括蒙特卡洛法和时间差分法。其中时间差分法分为两类,一类是基于价值:包括Sarsa、Q-learning以及将强化学习与深度学习结合的DQN,另一类是基于策略:包括Policy Gradient、A3C、DDPG。

Part2
下面给大家具体介绍一下几个经典算法的原理,以及改进的地方。
1.Q-learning、Sarsa
Q-Learning和Sarsa这两种强化学习方法的的主要思路就是通过学习建立一张决策表,表中的行表示state,列表示在某一state下采取某一种action的可能性(也可以理解为奖励值)。据此,在实际应用中可根据所处的state和决策表选择当下奖励最大的action.
对于Q-learning算法,Q表的更新公式如下:
Q(s,a)=Q(s,a)+α[r+γ⋅maxa′Q(s′,a′)−Q(s,a)],其中Q(s,a)和r+γ⋅maxa′Q(s′,a′)分别表示在状态s下采取动作a时所带来的回报的估计值和现实值,将现实值和估计值的差作为梯度对Q表进行更新。参数α是学习率,γ是衰减因子。
对于Sarsa算法,Q表的更新公式如下:
Q(s,a)=Q(s,a)+α[r+γ⋅Q(s′,a′)−Q(s,a)]
对比二者的Q表更新公式,我们不难发现,Q-Learning在状态s时会先观察一下选取哪一个动作会带来最大的奖赏reward来更新(仅用来更新Q表),但是在真正要做决定的时候却不一定会选取到那个带来最大reward的动作。而Sarsa属于实践派,在状态s的估计动作就是他接下来要做的动作。
2.DQN
前面介绍的表格型方法存储的状态数量有限,对于有限动作,这类方法有着很好的表现,当面对机器人控制这类有数不清的状态的环境时,表格型方法就会出现维度灾难的问题,DQN的提出解决了这一局限,它使用神经网络来近似替代Q表格。
DQN是深度强化学习的开山之作,它的关键之处有两点:一个是采用了经验回放 Experience Replay,使用一个经验池存储多条经验s,a,r,s’,通过在经验回放中随机均匀采样,打破了训练样本之间的相关性和利用效率的问题;同时,采用过去的多个样本做平均,也可以使训练样本分布更平滑。另一个就是DQN采用了固定Q目标 Fixed-Q-Target的方式,复制一个和原来Q网络结构一样的Target Q网络,用于计算Q目标值,主要为了解决算法训练不稳定的问题。
3.DDPG
DDPG的全称是Deep Deterministic Policy Gradient,DQN一般用来解决离散动作的问题,而DDPG的提出则是为了让DQN可以扩展到连续的动作空间。DDPG依然延用了经验回放和固定Q网络两个技巧,它引入了Actor-Critic架构,使用卷积神经网络(即策略网络Actor)直接输出一个具体的动作,而不是这个动作的概率,评论家网络Critic对每个动作的回报值进行评价。其中Actor和Critic都有target-net和eval-net两个网络。但是我们只需要训练动作估计网络和状态估计网络的参数,而动作现实网络和状态现实网络的参数是由前面两个网络每隔一定的时间复制过去的。

好啦,以上就是学习百度NeurIPS团队《带你从零实践强化学习》课程后的一些心得笔记,内容比较简单,旨在针对零基础入门强化学习的小伙伴们能够对强化学习有一个简单地了解,欢迎大家批评指正!

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值