【shusen wang】【笔记】深度强化学习(2/5)：价值学习

最新推荐文章于 2024-06-12 15:45:49 发布

Dxton

最新推荐文章于 2024-06-12 15:45:49 发布

阅读量223

点赞数 1

分类专栏：强化学习文章标签：强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44343942/article/details/115308818

版权

强化学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文深入探讨了深度强化学习中的关键概念，包括动作价值函数、DQN（Deep Q-Network）和TD（Temporal Difference）学习。DQN通过神经网络逼近动作价值函数以选择最佳动作。TD学习则允许在不完整观测的情况下更新参数，采用部分实际观测值与预测值的差（TD-target）来修正预测，实现网络训练。在DQN中，TD-learning被用来更新Q*函数，以优化决策过程。

摘要由CSDN通过智能技术生成

注：图片相关文字内容一般在图片上面。
右边有目录=====================》

1，价值函数

一张图回忆一下动作价值函数公式。

2，DQN(Deep Q-Network)

输入状态利用Q*来输出最佳动作。Q*从何而来？这里用神经网络学习近似得到一个Q*。
（感性认识：Q*如果看作给所有动作打分的话，神经网络就要学习打分如何打的越来越准）

3，TD learning（Tempor Difference）

-1，正常情况下如何训练一个神经网络：

例1：导航模型预测NYC到atlanta需要1000分钟，实际测试是860分钟。
预测值与实际值之间的误差构成损失函数，对参数求偏导，梯度下降更新参数，完成训练。

-2，如果不跑完全程能否更新参数呢？

假如车中途开到DC，用时300。这是重新预测到中间用户，需要600分钟，总用时900分钟。
含有真实值的900分钟比1000更可靠，并且有误差，利用误差更新参数，训练网络。

-3，总结：TD-learning如何工作的？利用「部分实际观测值+预测值」来对「纯预测值」进行修正，不需要完整的观测就可以更新参数，训练网络。

-4，最后，「部分实际观测值+预测值」称为TD-target。与纯预测值之间的差称为TD-error。

4，TD learning如何应用到DQN当中？

-上一部分解释了TD-learning如何工作的：利用「部分实际观测值+预测值」来对「纯预测值」进行修正，不需要完整的观测就可以更新参数，训练网络。

-下面将折扣回报进行改写。

-改写后的结果引入到动作价值函数Q*的公式当中。

-此时与TD-learning中公式接近。用prediction与TD target之间的误差来更新参数，实现DQN的训练。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。