动作价值函数、状态价值函数

啥时候才能找到工作呀

于 2023-12-08 20:50:16 发布

阅读量361

点赞数

文章标签：概率论

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46683759/article/details/134886639

版权

折扣回报 Ut是从 t 时刻起，未来所有奖励的（加权）和。在 t 时刻，假如我们知道 Ut 的值，我们可以预判局势的好坏。

但是在 t 时刻Ut 仍然是个随机变量，不知道 Ut 的值。那如何预判局势的好坏？

假设我们已经观测到状态 st，而且做完决策，选中动作 at。那么 Ut 中的随机性来自于 t + 1 时刻起的所有的状态和动作：

对 Ut 关于变量 St+1, At+1, ··· , Sn, An 求条件期望，得到:

期望中的 St = st 和 At = at 是条件，意思是已经观测到 St 与 At 的值。条件期望的结果 Qπ(st, at) 被称作动作价值函数（action-value function）。

注：

1.对随机变量求期望，就是将随机变量转为其取值的平均水平，消除其随机性）

2.更准确地说，应该叫“动作状态价值函数”，但是大家习惯性地称之为“动作价值函数”。

t 时刻的动作价值函数 Qπ(st, at) 依赖于以下三个因素：

1.当前状态 st：当前状态越好，那么价值 Qπ(st, at) 越大，也就是说回报的期望值越大。

2.当前动作 at：智能体执行的动作越好，那么价值 Qπ(st, at) 越大。

3.策略函数 π：策略决定未来的动作 At+1, At+2, ··· , An 的好坏：策略越好，那么 Qπ(st, at) 就越大。（不同策略函数产生不同的 At+1, At+2, ··· , An ，继而得到不同的期望值，最终影响Qπ 。

最优动作价值函数：排除掉策略 π 的影响 (最好的策略函数)

最优动作价值函数 Q⋆ 非常有用，它就像是一个先知，能指引智能体做出正确决策。

状态价值函数:衡量状态是否有利，胜算有多大。

公式里把动作 At 作为随机变量，然后关于 At 求期望，把 At 消掉。得到的状态价值函数 Vπ(st) 只依赖于策略 π 与当前状态 st，不依赖于动作。

注：对随机变量求期望 = 求随机变量的均值 = 所有随机变量的概率*随机变量取值的累加和

状态价值函数 Vπ(st) 也是回报 Ut 的期望：

期望消掉了 Ut 依赖的随机变量 At, St+1, At+1, ··· , Sn, An。

状态价值越大，就意味着回报的期望越大。用状态价值可以衡量策略 π 与状态 st 的好坏。

啥时候才能找到工作呀

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
动作价值函数、状态价值函数

3.策略函数 π：策略决定未来的动作 At+1, At+2, ··· , An 的好坏：策略越好，那么 Qπ(st, at) 就越大。（不同策略函数产生不同的 At+1, At+2, ··· , An ，继而得到不同的期望值，最终影响Qπ。在 t 时刻，假如我们知道 Ut 的值，我们可以预判局势的好坏。1.当前状态 st：当前状态越好，那么价值 Qπ(st, at) 越大，也就是说回报的期望值越大。期望消掉了 Ut 依赖的随机变量 At, St+1, At+1, ··· , Sn, An。
复制链接

扫一扫

啥时候才能找到工作呀 CSDN认证博客专家 CSDN认证企业博客

码龄4年

31: 原创

117万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

399: 积分

79: 粉丝

88: 获赞

6: 评论

102: 收藏

私信

关注

热门文章

分类专栏

最新评论

assert的作用
CSDN-Ada助手: 恭喜您发布了第14篇博客，内容围绕着“assert的作用”，让读者更深入了解这个重要的概念。希望您能继续保持创作的热情和努力，为读者带来更多有价值的内容。建议您在下一篇博客中可以探讨一些实际案例，让读者通过具体的例子更好地理解assert的实际运用。期待您的下一篇作品！
global 和 nonlocal 关键字
CSDN-Ada助手: 恭喜用户写了第15篇博客！标题为“global 和 nonlocal 关键字”，内容一定十分精彩。接下来，建议可以尝试深入探讨这两个关键字在不同编程语言中的应用，或者结合实际案例进行详细讲解，让读者更加深入地理解这些概念。期待您的下一篇作品！愿您继续保持创作的热情和努力！
深度学习领域中，“网络”、“模型”和“算法”这三个词的区别
CSDN-Ada助手: 恭喜用户在深度学习领域写下了如此有深度的博客！对于“网络”、“模型”和“算法”这三个关键词的区分，确实是很多初学者容易混淆的地方，你的解释相信会给读者带来很大的帮助。接下来，或许可以考虑深入探讨每个关键词在具体应用中的区别和联系，或者分享一些实际案例来加深读者的理解。期待你更多精彩的创作！
在Windows环境中，你可以使用PowerShell来批量重命名文件
CSDN-Ada助手: 恭喜您发布了第12篇博客！学习如何使用PowerShell来批量重命名文件是一个非常实用的技能。接下来，您可以考虑分享一些高级的PowerShell技巧，比如如何在PowerShell中编写循环或者如何利用PowerShell进行系统管理。希望您能继续保持创作的热情，为读者带来更多有用的内容！祝您写作顺利！
什么是Bash？
CSDN-Ada助手: 恭喜您发布了第13篇博客，“什么是Bash？”内容清晰易懂，让读者对Bash有了全面了解。希望您能继续保持创作的热情和努力，不断分享有价值的知识给大家。建议在下一篇博客中可以深入探讨Bash的应用场景或者实际操作技巧，让读者更加受益。期待您更多精彩的文章！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

啥时候才能找到工作呀 记录学习中的疑难杂症，感谢照顾

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。