值迭代、策略迭代

最新推荐文章于 2024-09-02 12:03:14 发布

「已注销」

最新推荐文章于 2024-09-02 12:03:14 发布

阅读量8.5k

点赞数 1

分类专栏：强化学习文章标签：强化学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xtingjie/article/details/70946763

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

值函数

策略: 状态s到动作a的映射： $\pi:S\rightarrow A$
值函数：值函数都是对应于特定的策略的，即 $V^\pi$
对于策略 $\pi$ ，状态s的值函数：

$V^\pi(s)=E[R(s_0)+\gamma R(s_1)+\gamma^2 R(s_2)+...|s_0=s,\pi].$

也可表示为Bellman形式，是一种迭代思想：

$V^\pi(s)=R(s)+\gamma\sum \limits_{s'\in S} P_{s\pi (s)} (s')V^\pi (s').$

其中 $P_{s\pi (s)} (s')$ 表示对应于策略 $\pi$ 的状态转移概率，即从s转到s’的概率

最优的值函数

对于某状态s的最优值函数用 $V^*(s)$
定义如下：
$V^*(s)=\max \limits _\pi V^\pi(s).$
由上式可知，最优的策略 $\pi$ 对应最优的值函数、

写成Bellman方程就是：

$V^*(s)=R(s)+\max\limits_{a\in A} \gamma\sum\limits_{s'\in S}P_{sa}(s')V^*(s').$

最优的策略

用 $\pi ^*$ 表示
在某一状态s下的最优策略定义如下：

$\pi ^*(s)=\arg\max\limits_{a\in A}\sum\limits_{s'\in S}P_{sa}(s')V^*(s').$

值迭代

这里写图片描述

策略迭代

这里写图片描述

其中 $V:=V^\pi$ 的计算可根据第一节值函数的定义计算

「已注销」

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

「已注销」 CSDN认证博客专家 CSDN认证企业博客

码龄8年

76: 原创

-: 周排名

-: 总排名

96万+: 访问

: 等级

4488: 积分

103: 粉丝

415: 获赞

48: 评论

1301: 收藏

私信

关注

热门文章

分类专栏

HTML JavaScript CSS 16篇
笔记 1篇
算法 1篇
PPT 2篇
MATLAB 12篇
markdown编辑器 3篇
遗传算法 3篇
office 6篇
神经网络 3篇
支持向量机 2篇
强化学习 2篇
Python 23篇
numpy 5篇
scipy 1篇
matplotlib 3篇
机器学习 16篇
sklearn 2篇
python爬虫 3篇

最新评论

python爬虫：抓取页面上的超链接
m0_73724599: 为什么会爬出非超链接的东西
scipy常数
Chasing Aurora: 放屁，e是自然常数，那是电子好吗？
HTML+JavaScript实现在浏览器里自由画线1.0
m0_71020588: 你好老师，这个代码，我运行后，成功了，前面是忘了保存，刚才重新看了一下，保存后运行，能在html浏览器上，进行鼠标涂鸦了，现在是几个问题，1，这个是白底的颜色，能否把颜色改为透明色，2，这个涂鸦区域是固定的，能否自定义为能在整个屏幕上批注，3，能否把这个web上批注的功能，作成是一个叠加图层，叠加在电脑幕屏（或web浏览器的）任意一个界面上，不管是游戏还是视频还是网页还是wps，都可以叠加在这些界面上，4，还是应该开发几个批注的工具菜单，线条可以换颜色，线条可以调粗细，5，可以定一个白板批注状态，透明批注状态，黑板批注状态，青绿色批注状态（就象学校教室的黑板是青绿色），6，有一个键是能清空批注，有撤销，有像皮擦，……还能一键截图保存当前的屏幕批注画面到指定的文件夹，还可以一键录屏，把批注过程录制成一个视频，保存到指定文件夹，以上，盼老师能继续开发，谢了！
HTML+JavaScript实现在浏览器里自由画线1.0
m0_71020588: 我看了一下您的代码，是要用鼠标来作这个按下左键进入这个操作界面，您可以看一下epic pen，这个软件可以配手写板，用手写笔在wacom手写板上进行屏幕批注，很方便的
HTML+JavaScript实现在浏览器里自由画线1.0
m0_71020588: 您好老师，我把您这个代码导入到vscode，运行，没有成功，我是想弄一个屏幕批注，类似于win系统的那个epic pen软件，可以叠加在任何一个屏幕或软件的界面上，不管这个软件界面是视频的还是网页的还是word还是游戏，它都在叠加在这些界面上，任意写字，不知能否加您微信，好好交流一下，能否复刻一个epic pen那样的软件，谢谢了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。