学习心得-强化学习【基础脉络】

只为记录学习心得
学习视频来源B站up主 西湖大学空中机器人
链接:https://www.bilibili.com/video/BV1sd4y167NS/?spm_id_from=333.337.search-card.all.click&vd_source=ad94eb95d81e9e6b1a5d71459ef1a76d

强化学习基础原理脉络图
强化学习概念图
chapter 1: 基本概念
chapter 2: 贝尔曼公式
chapter 3: 贝尔曼最优公式
chapter 4: 值迭代和策略迭代
chapter 5: 蒙特卡洛方法
chapter 6: 随机近似与随机梯度下降
chapter 7: 时序差分方法
chapter 8: 值函数近似
chapter 9: 策略梯度方法
chapter 10:演员-评论家方法

章节包含的内容
chapter 1: 基本概念

  • 概念:state(状态)、action(动作)、reward(奖励)、return(回报)、episode(回合)、policy(策略)
  • Grid-world example(网格世界的例子)
  • Markov decision process (MDP,马尔可夫决策过程)

chapter 2: 贝尔曼公式

  • state value(状态值)

state value

  • Bellman equation(贝尔曼公式)

Bellman equation

  • Policy evaluation(策略评价)

chapter 3: 贝尔曼最优公式

  • optimal policy(最优策略)和optimal state value(最优状态值)

  • Bellman optimality equation(贝尔曼最优公式)
    在这里插入图片描述
    chapter 4: 值迭代和策略迭代

  • Value iteration(值迭代)

  • Policy iteration(策略迭代)

chapter 5: 蒙特卡洛方法

  • Monte Carlo(蒙特卡洛)
  • MC Basic算法
  • MC Exploring Stars算法
  • MC ε-greedy算法

chapter 6: 随机近似理论

  • 从前五章non-incremental(无增量式)到后面incremental(增量式)的过渡
  • Mean estimation(期望估计)
  • Robbins-Monro(RM)算法
  • Stochastic Gradient Descent(SGD 随机梯度下降)算法
  • SGD、BGD(Batch Gradient Descent)、MBGD(Mini-Batch Gradient Descent)之间的比较

chapter 7: 时序差分方法

  • TD(Temporal-Diffenrence)算法
  • Sarsa算法
  • Q-learning算法

chapter 8: 值函数近似

  • State value estimation with value functino approximation(VFA值函数近似)
    State value estimation

  • Sarsa with VFA

  • Q-learning with VFA

  • Deep Q-learning(DQN)

chapter 9: 策略梯度方法

  • 目标函数
  • 策略梯度
  • 梯度上升

chapter 10:演员-评论家方法

  • The simplest actor-critic(QAC)
  • Advantage actor-critic(A2C)
  • Off-policy actor-critic
  • Deterministic actor-critic(DPG)

欢迎指正!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值