2、TD+Learning

Discounted Return

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

Sarsa

TD算法,用来学习动作价值函数QΠ

Sarsa:Tabular Version

在这里插入图片描述
在这里插入图片描述
Sarsa’s Name
在这里插入图片描述
表格状态的Sarsa适用于状态和动作较少,随着状态和动作的增大,表格增大就很难学习

Sarsa:Neural Network Version

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Q-Learning

TD算法,学习最优动作算法

Sarsa与Q-Learning
在这里插入图片描述
在这里插入图片描述

Derive TD Target

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Q-Learning(tabular version)

在这里插入图片描述

Q-Learning(DQN Version)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Multi-Setp TD Target

  • Using One Reward
    在这里插入图片描述
  • Using Multiple Rewards
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

价值回放(Revisiting DQN and TD Learning)

  • Shortcoming 1:Waste of Experience

在这里插入图片描述

  • Shortcoming2:Correlated Updates
    在这里插入图片描述
  • 经验回放

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • History

在这里插入图片描述

Prioritized Experience Replay

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
左边是马里奥常见场景,右边是boos关场景,相对于左边而言,右边更少见,因此要加大右边场景的权重,TD error越大,那么该场景就越重要
在这里插入图片描述
在这里插入图片描述
随机梯度下降的学习率应该根据抽样的重要性进行调整
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
一条样本的TD越大,那么抽样权重就越大,学习率就越小

高估问题

在这里插入图片描述
Bootstrapping:自举问题,拽自己的鞋子将自己提起来
类似左脚踩右脚上天方法,现实中是不存在,强化学习中存在
在这里插入图片描述
在这里插入图片描述

Problem of Overestimation

在这里插入图片描述

  • Reason 1:Maximization
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • Reason 2:Bootstrapping
    在这里插入图片描述
  • Why does overestimation happen
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • Why overestimation is a shortcoming
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
  • Solutions
    在这里插入图片描述

Target Network

在这里插入图片描述
TD Learning with Target Network
在这里插入图片描述
Update Target Network在这里插入图片描述
Comparisons
在这里插入图片描述
Target Network虽然好了一点,但仍然无法摆脱高估问题

Double DQN

  • Naive Update
    在这里插入图片描述

  • Using Target Network
    在这里插入图片描述

  • Double DQN
    在这里插入图片描述

  • Why does Double DQN work better
    在这里插入图片描述

Dueling Network

Advantage Function(优势函数)

  • Value Functions
    在这里插入图片描述

  • Optimal Value Functions
    在这里插入图片描述
    Properties of Advantage Function
    在这里插入图片描述
    在这里插入图片描述

Dueling Network

在这里插入图片描述
Revisiting DQN
在这里插入图片描述
Approximating Advantage Function
在这里插入图片描述
Approximating State-Value Function
在这里插入图片描述
Dueling Network:Formulation
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
蓝色加上红色再减去红色的最大值就得到紫色最后Dueling Network输出
在这里插入图片描述
Problem of Non-identifiability
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值