学习心得-强化学习【值迭代与策略迭代】

文章详细介绍了三种动态规划方法在解决强化学习问题中的应用:值迭代算法通过贝尔曼最优公式求解最优策略,策略迭代算法从策略出发逐步优化,而截断策略迭代则结合两者,通过设定迭代次数在二者间找到平衡,实现更快的收敛速度。不同截断步长会影响收敛速度和效率,需适度选择。
摘要由CSDN通过智能技术生成

只为记录学习心得
学习视频来源B站up主 西湖大学空中机器人
链接:https://www.bilibili.com/video/BV1sd4y167NS/?spm_id_from=333.337.search-card.all.click&vd_source=ad94eb95d81e9e6b1a5d71459ef1a76d
目录
1.值迭代算法
2.策略迭代算法
3.截断策略迭代算法

1.值迭代算法
之前讲过了贝尔曼最优公式,形式如下
在这里插入图片描述
那么如何求解贝尔曼最优公式呢?
就是利用压缩映射定理方式进行求解出最优策略和最优state value,算法如下:
在这里插入图片描述
这个算法有一个名字,就叫值迭代
接下来剖析一下值迭代算法
在这里插入图片描述
细化步骤1、2就是
在这里插入图片描述
算法伪代码
在这里插入图片描述
例子:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
回到目录

2.策略迭代算法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
例子:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
复杂例子:
在这里插入图片描述

在这里插入图片描述
从图中可以看到一个现象,先接近目标的状态会先变好,慢慢往远的目标迭代变好

回到目录

3.截断策略迭代算法
策略迭代是从策略出发开始求
值迭代是从值出发开始求
在这里插入图片描述
这两个算法是非常类似的,那它们的区别是什么?
在这里插入图片描述
从第四步开始不同,不同的点地方
在这里插入图片描述

这里策略迭代计算出无穷多步,才得到vπ1,而值迭代只用一步就得到vπ1
如果在其中一步进行截断
在这里插入图片描述
用中间值来当下一个计算策略当中,所以截断策略迭代是策略迭代和值迭代的一般化,因为它判断的不是是否收敛,而是次数是否到达
在这里插入图片描述
这种截断是否会造成算法无法收敛呢?
在这里插入图片描述
因为每次计算vπk都会增大,所以截取某个j值并不会影响,下图也说明了并不会影响
在这里插入图片描述
例子:
在这里插入图片描述

在这里插入图片描述
这是可以发现,当截断 j = 1 时,到快60次才收敛【等于值迭代】,当截断 j = 3 时,到20次才收敛,当截断 j = 6 时,到十几次才收敛,当截断 j = 100 时,到快十次才收敛,这说明当截断 j 增大时,它能够更快地收敛,但是随着截断 j 的增大,收敛的速率也会逐渐变慢,所以尽量避免每次只计算一步,也避免每次计算很多步,每次多计算几步就有很大收获

回到目录

       

欢迎指正!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值