2、TD+Learning

最新推荐文章于 2024-05-16 21:41:01 发布

C--G

最新推荐文章于 2024-05-16 21:41:01 发布

阅读量121

点赞数

分类专栏： # 强化学习文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50973728/article/details/125651752

版权

强化学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Discounted Return

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Sarsa

TD算法，用来学习动作价值函数QΠ

Sarsa：Tabular Version

在这里插入图片描述

Sarsa’s Name

表格状态的Sarsa适用于状态和动作较少，随着状态和动作的增大，表格增大就很难学习

Sarsa：Neural Network Version

在这里插入图片描述

在这里插入图片描述

Q-Learning

TD算法，学习最优动作算法

Sarsa与Q-Learning
在这里插入图片描述

Derive TD Target

在这里插入图片描述

Q-Learning(tabular version)

在这里插入图片描述

Q-Learning(DQN Version)

在这里插入图片描述

Multi-Setp TD Target

Using One Reward
Using Multiple Rewards

价值回放（Revisiting DQN and TD Learning）

Shortcoming 1：Waste of Experience

在这里插入图片描述

Shortcoming2：Correlated Updates
经验回放

在这里插入图片描述

History

在这里插入图片描述

Prioritized Experience Replay

在这里插入图片描述

左边是马里奥常见场景，右边是boos关场景，相对于左边而言，右边更少见，因此要加大右边场景的权重，TD error越大，那么该场景就越重要

随机梯度下降的学习率应该根据抽样的重要性进行调整
在这里插入图片描述

一条样本的TD越大，那么抽样权重就越大，学习率就越小

高估问题

在这里插入图片描述
Bootstrapping：自举问题，拽自己的鞋子将自己提起来
类似左脚踩右脚上天方法，现实中是不存在，强化学习中存在

Problem of Overestimation

在这里插入图片描述

Reason 1:Maximization
Reason 2:Bootstrapping
Why does overestimation happen

在这里插入图片描述

Why overestimation is a shortcoming
Solutions

Target Network

在这里插入图片描述
TD Learning with Target Network

Update Target Network
Comparisons

Target Network虽然好了一点，但仍然无法摆脱高估问题

Double DQN

Naive Update
Using Target Network
Double DQN
Why does Double DQN work better

Dueling Network

Advantage Function（优势函数）

Value Functions
Optimal Value Functions

Properties of Advantage Function

Dueling Network

在这里插入图片描述
Revisiting DQN

Approximating Advantage Function

Approximating State-Value Function

Dueling Network:Formulation

蓝色加上红色再减去红色的最大值就得到紫色最后Dueling Network输出

Problem of Non-identifiability
在这里插入图片描述

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2、TD+Learning

TD
复制链接

扫一扫

专栏目录

C--G CSDN认证博客专家 CSDN认证企业博客

码龄4年

321: 原创

3万+: 周排名

8382: 总排名

33万+: 访问

: 等级

3973: 积分

812: 粉丝

698: 获赞

71: 评论

1710: 收藏

私信

关注

热门文章

分类专栏

最新评论

5、计算机图形学——着色
神仙偷偷下凡: 这些图和我老师用的好像啊
108、3D Gaussian Splatting for Real-Time Radiance Field Rendering
Anefuer_kpl: Adaptive Control部分说的好像有点错误，作者在论文中表示，无论是欠重建还是过度重建的部分高斯的梯度都是很大的，因此需要分两种情况讨论，具体怎么区分前欠重建和过度重建，作者在代码中首先计算了整个相机坐标的最大尺度，具体做法是计算所有相机坐标与平均相机坐标的距离，然后取最大距离为scene_extent，每个高斯自身有scale属性，将scale与scene_extent比较，如果该高斯的梯度大于阈值，且scale<scene_extent则表示欠重建需要clone，如果>则表示过度重建需要split。当然我只是粗略说一下过程，实际代码中scene_extent前面还乘以了一个超参数用于控制split和clone的阈值。
61、Reinforcement Learning with Neural Radiance Fields
AuthorT: 不开源
100：ReconFusion: 3D Reconstruction with Diffusion Priors
Even丶666: 请问代码开源么
1、instant-ngp（代码来源于kwea123）学习总结
David Laid: 努力了不一定能成功，但不努力不一定不成功。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。