强化学习
文章平均质量分 92
强化学习 相关记录
Gaogaogaoshu
这个作者很懒,什么都没留下…
展开
-
《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch8 值函数拟合 【基于近似函数的 TD 算法:Sarsa、Q-leaning、DQN】
PPT 截取有用信息。课程网站做习题。原创 2024-06-30 13:57:17 · 658 阅读 · 0 评论 -
《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch7 时序差分方法 [model-free+增量] 【TD-learning:Sarsa、Q-learning】【贝尔曼期望公式】
PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍 1、学堂在线 视频 + 习题 2、相应章节 过电子书 复习 【下载:本章 PDF 文档GitHub】 3、MOOC 习题 不理解的地方学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub链接】文章目录7.1 状态值 的 TD 学习算法7.2 动作值 的 TD 算法: Sarsa7.2.2 通过 Sarsa 学习最优策略Expected Sa原创 2024-06-30 13:52:41 · 364 阅读 · 0 评论 -
《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch6 随机近似 和 随机梯度下降 【non-incremental —> incremental 增量】
学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub链接】Stochastic Approximation:随机近似Stochastic Gradient Descent:随机梯度下降第 7 章 的 Temporal-Difference Learning 是 Stochastic Approximation 的一个特殊情况。随机梯度下降 是 RM 算法的特例4、Batch Gradient Descent、Mini-batch Gradient原创 2024-06-30 13:41:45 · 393 阅读 · 0 评论 -
▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch5 蒙特卡洛方法【model-based ——> model-free】
PPT 截取必要信息。课程网站做习题。原创 2024-06-23 15:28:51 · 761 阅读 · 0 评论 -
▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch4 值迭代 与 策略迭代 【动态规划 model-based】
PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 + 学堂在线 习题 2、过 电子书 补充 【下载: 本章 PDF 电子书 GitHub】 [又看了一遍视频。原来第一次跳过了好多内容。。。] 3、总体 MOOC 过一遍 习题学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub 链接】总述:开始介绍第一个可以找到最优策略的算法。 ——> 动态规划算法介绍 3 种 迭代算法:1原创 2024-06-19 17:51:45 · 1050 阅读 · 0 评论 -
⭐ ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch3 贝尔曼最优公式 【压缩映射定理】
PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 + 学堂在线 习题 2、过 电子书,补充 【下载:本章 PDF 电子书 GitHub 界面链接】 [又看了一遍视频] 3、总体 MOOC 过一遍 习题学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub 链接】强化学习的最终目标: 寻求最优策略贝尔曼最优公式, 可以求解 最优状态值 和 最优策略。————————P1 如何原创 2024-06-17 22:04:13 · 1086 阅读 · 0 评论 -
▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch2 贝尔曼公式 【状态值、动作值】
PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍 1、学堂在线 视频 + 习题 2、相应章节 过电子书 复习 GitHub界面链接 3、总体 MOOC 过一遍学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【github链接】文章目录计算 return方法一: 根据定义方法二: 根据状态间 回报 的依赖关系State value 状态值 vπ(s)v_\pi(s)vπ(s)贝尔曼公式 推导如何写出 Bellm原创 2024-06-17 12:46:29 · 816 阅读 · 0 评论 -
▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch1 基本概念
PPT 截取有用信息。课程网站做习题。总体 MOOC 过一遍PPT和书籍下载网址:通过 例子 介绍 强化学习 的基本概念基于 马尔可夫决策过程 介绍s1s2...s9状态空间 State space :Ssii19行动 Action:a1...a5行动空间 Action space:Asiaii15状态转移 state transition:s1a2s2。原创 2024-06-17 12:39:35 · 962 阅读 · 0 评论 -
▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch0 一张图讲完强化学习原理
要研究策略迭代算法,首先要了解 值迭代 算法(第 4 章)。,w 是值函数的参数,更新值函数的参数使得这个值函数能够很好地近似或者估计出来 一个策略 所对应的值, 在此基础上再更新策略,得到新的策略,然后再估计它的值。Bellman 方程(第 2 章) ——> Bellman 最优性方程(第 3 章) ——> 值迭代 算法(第 4 章) ——> MC 算法 (第 5 章)有一个不太好的策略——> 估计策略的值 【策略评价】,根据值改进策略——> 估计 新的策略 的值 , 改进策略——>…原创 2024-06-17 12:33:13 · 731 阅读 · 0 评论