reinforcement learning(利用亲身经历的经验去学习)优化目标为长期收益，优化方法为每动一下都给一个评价

wonag

已于 2024-08-31 15:25:24 修改

阅读量372

点赞数 4

文章标签：学习

于 2024-08-31 00:42:17 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45124463/article/details/141726421

版权

适合任务：人类可能也不知道具体的label，只知道好坏。深度学习中loss不可微分的任务。

依然是找一个函数，智能体的策略函数为神经网络时叫做深度强化学习

*:observation就是state，state指的是环境的状态

*:actor本身是一个决策函数，也叫policy，也叫Π（pi）

*：action是决策后sample的结果，而不是直接argmax，这是为了exploration（探索更多可能性）

*：目标是total reward，也叫return，关注长期奖励

*：智能体经过一系列observation，action，observation，action...直到结束为一次episode（一次完整实验）

*：定义Loss：其实就是看每一步智能体行动完之后针对这个action，你觉得应该让他做还是不做，对此进行参数调整（核心就是定义下图的Ai,Ai给出这个action人类觉得好不好）

先出现的value-based方法，后来才出现policy-based

上面的iteration中每轮只update一次θ参数，即收集的1个episode的data只用于当前智能体参数更新，因为新的智能体在面对相同环境的时候可能采取不同以往的action，因此需要使用新的actor自己的experience数据进行训练，上一个episode那些数据不符合它可能产生的经历,这就是on-policy

off-policy是训练的actor和与环境互动的actor是不同的，即利用别人的经验来进行训练

典型算法：PPO（off-policy）

critic=value function：针对具体的actor，对该actor和环境的互动进行观察，观察多个episode，总结出针对该actor的value function，critic=value function（observation）=在当前observation之后该actor的discounted cumulated reward。value function就是给出actor在遇到observation环境下之后的一切好还是不好（平均意义上）

value function的计算有蒙特卡洛方法和时间差分方法

训练出一个network给出value function的值，该network就是critic

version4：去掉st+1之后的随机性

Deep Q network（该方法已被actor-critic取代）:直接从critic就可以知道应该采用哪个action

sparse reward:不能直接只有最终目标有reward，需要一步一步引导,自行设置中间有用的reward，把读博拿到学位拆解成多个子任务并赋予一定的reward

No Reward的情况: Learning from Demonstration：

inverse reinforcement learning：让机器自己定义reward--即先学出reward，再利用学出的reward进行强化学习,循环往复:结构≈GAN

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。