学习心得-强化学习【基础脉络】

白菜真是菜

已于 2023-03-06 20:05:25 修改

阅读量108

点赞数

分类专栏：学习心得-强化日记文章标签：学习算法机器学习

于 2023-03-06 18:20:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45739351/article/details/129365323

版权

学习心得-强化日记专栏收录该内容

5 篇文章 2 订阅

订阅专栏

只为记录学习心得
学习视频来源B站up主 西湖大学空中机器人：
链接：https://www.bilibili.com/video/BV1sd4y167NS/?spm_id_from=333.337.search-card.all.click&vd_source=ad94eb95d81e9e6b1a5d71459ef1a76d

强化学习基础原理脉络图
强化学习概念图
chapter 1：基本概念
chapter 2：贝尔曼公式
chapter 3：贝尔曼最优公式
chapter 4：值迭代和策略迭代
chapter 5：蒙特卡洛方法
chapter 6：随机近似与随机梯度下降
chapter 7：时序差分方法
chapter 8：值函数近似
chapter 9：策略梯度方法
chapter 10：演员-评论家方法

章节包含的内容
chapter 1：基本概念

概念：state（状态）、action（动作）、reward（奖励）、return（回报）、episode（回合）、policy（策略）
Grid-world example（网格世界的例子）
Markov decision process （MDP，马尔可夫决策过程）

chapter 2：贝尔曼公式

state value（状态值）

state value

Bellman equation（贝尔曼公式）

Bellman equation

Policy evaluation（策略评价）

chapter 3：贝尔曼最优公式

optimal policy（最优策略）和optimal state value（最优状态值）
Bellman optimality equation（贝尔曼最优公式）

chapter 4：值迭代和策略迭代
Value iteration（值迭代）
Policy iteration（策略迭代）

chapter 5：蒙特卡洛方法

Monte Carlo（蒙特卡洛）
MC Basic算法
MC Exploring Stars算法
MC ε-greedy算法

chapter 6：随机近似理论

从前五章non-incremental（无增量式）到后面incremental（增量式）的过渡
Mean estimation（期望估计）
Robbins-Monro（RM）算法
Stochastic Gradient Descent（SGD 随机梯度下降）算法
SGD、BGD（Batch Gradient Descent）、MBGD（Mini-Batch Gradient Descent）之间的比较

chapter 7：时序差分方法

TD（Temporal-Diffenrence）算法
Sarsa算法
Q-learning算法

chapter 8：值函数近似

State value estimation with value functino approximation（VFA值函数近似）
Sarsa with VFA
Q-learning with VFA
Deep Q-learning(DQN)

chapter 9：策略梯度方法

目标函数
策略梯度
梯度上升

chapter 10：演员-评论家方法

The simplest actor-critic（QAC）
Advantage actor-critic（A2C）
Off-policy actor-critic
Deterministic actor-critic（DPG）

欢迎指正！

白菜真是菜

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习心得-强化学习【基础脉络】

学习心得
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。