深入浅出强化学习（3）

最新推荐文章于 2022-04-22 10:43:10 发布

zixufang

最新推荐文章于 2022-04-22 10:43:10 发布

阅读量772

点赞数

分类专栏：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yagreenhand/article/details/88601288

版权

强化学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

在这里插入图片描述
策略搜索：
之前降到的其他方法都是通过最优值函数从而得到最优策略。利用这种方法得到的策略往往是状态空间向有限集动作空间的映射。（每个状态都有一个值函数，执行策略到下一个状态的值函数最大，直接argmax_a(值函数)）

策略搜索是将策略进行参数化即 $\pi_{\theta}\left(s\right)$ ，利用线性或非线性（如神经网络）对策略进行表示，寻找最优的参数 $\theta$ 使得强化学习的目标：累积回报的期望 $E\left[\sum_{t=0}^H{R\left(s_t\right)|\pi_{\theta}}\right]$ 最大。

在值函数的方法中，我们迭代计算的是值函数，然后根据值函数对策略进行改进；而在策略搜索方法中，我们直接对策略进行迭代计算，也就是迭代更新参数值，直到累积回报的期望最大，此时的参数所对应的策略为最优策略。

比较：
优点：
适用动作空间很大或者动作为连续集
对策略 $\pi$ 进行参数化表示。
直接策略搜索方法经常采用的随机策略，能够学习随机策略。可以将探索直接集成到策略之中。
缺点：
策略搜索的方法容易收敛到局部最小值。
评估单个策略时并不充分，方差较大。
分类：

在这里插入图片描述 策略表示：
随机策略可以写为确定性策略加随机部分，即：
$\pi_{\theta}=\mu_{\theta}+\varepsilon$ 是一个高斯策略。
确定性部分常见的表示为：

线性策略： $\mu\left(s\right)=\phi\left(s\right)^T\theta$

径向基策略： $\mu_{\theta}\left(s\right)=\omega^T\phi\left(s\right),$
策略梯度：
在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。