【shusen wang】【笔记】深度强化学习(2/5):价值学习

本文深入探讨了深度强化学习中的关键概念,包括动作价值函数、DQN(Deep Q-Network)和TD(Temporal Difference)学习。DQN通过神经网络逼近动作价值函数以选择最佳动作。TD学习则允许在不完整观测的情况下更新参数,采用部分实际观测值与预测值的差(TD-target)来修正预测,实现网络训练。在DQN中,TD-learning被用来更新Q*函数,以优化决策过程。
摘要由CSDN通过智能技术生成

注:图片相关文字内容 一般在图片上面。
右边有目录=====================》


1,价值函数

 

 

一张图回忆一下动作价值函数公式。

 

2,DQN(Deep Q-Network)

 

 

输入状态利用Q*来输出最佳动作。Q*从何而来?这里用神经网络学习近似得到一个Q*。
(感性认识:Q*如果看作给所有动作打分的话,神经网络就要学习打分如何打的越来越准)

 

3,TD learning(Tempor Difference)

-1,正常情况下如何训练一个神经网络:

例1: 导航模型预测NYC到atlanta需要1000分钟,实际测试是860分钟。
预测值与实际值之间的误差构成损失函数,对参数求偏导,梯度下降更新参数,完成训练。

-2, 如果不跑完全程能否更新参数呢?

假如车中途开到DC,用时300。这是重新预测到中间用户,需要600分钟,总用时900分钟。
含有真实值的900分钟比1000更可靠,并且有误差,利用误差更新参数,训练网络。

-3, 总结:TD-learning如何工作的?利用 「部分实际观测值+预测值」 来对 「纯预测值」进行修正,不需要完整的观测就可以更新参数,训练网络。

-4, 最后,「部分实际观测值+预测值」称为TD-target。与纯预测值之间的差称为TD-error。

 

 

4,TD learning如何应用到DQN当中?

 

-上一部分解释了TD-learning如何工作的:利用 「部分实际观测值+预测值」 来对 「纯预测值」进行修正,不需要完整的观测就可以更新参数,训练网络。

-下面将折扣回报进行改写。

 

 

-改写后的结果引入到动作价值函数Q*的公式当中。

 

-此时与TD-learning中公式接近。用prediction与TD target之间的误差来更新参数,实现DQN的训练。

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值