《强化学习Sutton》读书笔记(三)——动态规划(Dynamic Programming)

此为《强化学习》第四章。

策略评估

策略评估 (Policy Evaluation) 首先考虑已知策略 π(a|s) π ( a | s ) ,求解 vπ(s) v π ( s ) 。根据上一节中状态值函数的Bellman等式,有

vπ(s)=aπ(a|s)srp(s,r|s,a)[r+γvπ(s)] v π ( s ) = ∑ a π ( a | s ) ∑ s ′ ∑ r p ( s ′ , r | s , a ) [ r + γ v π ( s ′ ) ]

如果我们已知整个环境,那么对每个状态 s s 都可以列出一条这样的方程,联立,即可解出 v π ( s )

此外,我们也可以使用迭代法求解。首先,随机在每个状态上给定一个值函数 v0(s) v 0 ( s ) ,然后按照如下的迭代进行:

vk+1(s)=
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值