自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 收藏
  • 关注

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch10 Actor-Critic 方法 » P1

PDF 资料 整理 v3 链接 视频 链接 习题actor-critic 方法仍然是策略梯度方法。强调结合策略梯度 和 基于价值的方法的结构。actor:策略更新。 策略用于执行动作critic: 策略评估 或 价值估计。10.1 QACQ: 动作价值 qtq_tqt​上节课介绍的 策略梯度方法1) 标量指标 J(θ)J(\theta)J(θ): vˉπ\bar v_\pivˉπ​ 或 rˉπ\bar r_\pirˉπ​2) 最大化 J(θ)J(\theta)J(θ

2024-09-27 21:30:00 895

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch10 Actor-Critic 方法 » P2

最简单的 actor-critic 算法 QAC。该算法类似于上一章介绍的策略梯度算法——REINFORCE。唯一的区别是 QAC 中的 Q 值估计依赖于 TD 学习,而 REINFORCE 依赖于蒙特卡罗估计。advantage actor-critic: 策略梯度对任何附加基线都是不变的。最优基线可以帮助减少估计方差。off-policy异策略: importance sampling重要性采样。

2024-09-27 21:30:00 799

原创 【论文_1992】 REINFORCE » P2 附录

Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn., 8:229–256, 1992. PDF 下载链接前面部分:【论文_1992】 REINFORCE » P1文章目录附录 AA.1. REINFORCE 算法的一些结论A.2. 回合式 REINFORCE 算法 的结论附录 B附录 A本附录分别包含

2024-09-26 21:45:00 1021 1

原创 【论文_2000】REINFORCE 和 actor-critic 等策略梯度方法的局部收敛性证明

部分证明不太理解SUTTON R S, MCALLESTER D A, SINGH S P, et al. Policy gradient methods for reinforcement learning with function approximation [C] // Advances in neural information processing systems, 2000: 1057-1063. 【PDF 链接】文章目录摘要引言1 策略梯度定理2 策略梯度 近似3 推导算法 和

2024-09-26 21:45:00 697

原创 【论文_1992】 REINFORCE » P1 ⭐ 为什么强化学习的目标函数里常看到 log

Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn., 8:229–256, 1992. PDF 下载链接——————————————————————————【REINFORCE_1992_Northeastern University】朴素策略梯度 vanilla policy gradient (also calle

2024-09-26 21:30:00 813

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch9 策略梯度方法 Box 8.1 马尔可夫决策过程的平稳分布

设。

2024-09-26 21:30:00 1418

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch9 策略梯度方法 9.4- Monte Carlo policy gradient (REINFORCE)

梯度在不同情况下的表达式是相似的。

2024-09-26 21:30:00 994

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch9 策略梯度方法 9.3.2 无折扣情形下的梯度推导

v3 链接9.3.2 无折扣情形下的梯度推导平均奖励 rˉπ\bar r_\pirˉπ​ 的定义对折扣和无折扣情况都有效。在折扣情况下的梯度是一个近似值,它在无折扣情况下的梯度更优雅。因为 无折扣奖励和 E[Rt+1+Rt+2+Rt+3+⋯∣St=s]{\mathbb E}[R_{t+1}+R_{t+2}+R_{t+3}+\cdots|S_t=s]E[Rt+1​+Rt+2​+Rt+3​+⋯∣St​=s] 可能发散,因此以特别的方式定义 状态价值 和 动作价值: ~ vπ(s)≐

2024-09-26 21:30:00 1227

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch9 策略梯度方法 -9.3.1

之前看了 2 次视频,公式有点多, 还是没整理出来。这个版本是以下步骤后的版本 基本把相关的核心论文过了一遍,代码整理了部分 PDF 资料 整理 v3 链接 视频 链接 习题 策略梯度方法需要估计值函数近似: 状态/动作 价值、策略参数化的策略: π(a∣s,θ)\pi(a|s,\theta)π(a∣s,θ),其中 θ∈Rm\theta\in{\mathbb R}^mθ∈Rm 是一个参数向量其它形式: πθ(s,a)\pi_\theta(s,a)πθ​(s,a), π(a,s

2024-09-26 21:15:00 357

原创 # [0705] Task06 DDPG 算法、PPO 算法、SAC 算法【理论 only】

easy-rl PDF版本 笔记整理 P5、P10 - P12 joyrl 比对 补充 P11 - P13 OpenAI 文档整理 ⭐ https://spinningup.openai.com/en/latest/index.html最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases国内地址(推荐国内读者使用):链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh

2024-07-07 22:12:33 1116 2

原创 # [0701] Task05 策略梯度、Actor-critic 算法

最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6a参考链接 2:https://datawhalechina.github.io/joyrl-book/——————5、深度强化学习基础 ⭐️开源内容:https://linklearner.com/learn/summary/11。

2024-07-01 21:58:34 1159 3

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch8 值函数拟合 【基于近似函数的 TD 算法:Sarsa、Q-leaning、DQN】

PPT 截取有用信息。课程网站做习题。

2024-06-30 13:57:17 726

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch7 时序差分方法 [model-free+增量] 【TD-learning:Sarsa、Q-learning】【贝尔曼期望公式】

PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍 1、学堂在线 视频 + 习题 2、相应章节 过电子书 复习 【下载:本章 PDF 文档GitHub】 3、MOOC 习题 不理解的地方学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub链接】文章目录7.1 状态值 的 TD 学习算法7.2 动作值 的 TD 算法: Sarsa7.2.2 通过 Sarsa 学习最优策略Expected Sa

2024-06-30 13:52:41 395

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch6 随机近似 和 随机梯度下降 【non-incremental —> incremental 增量】

学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub链接】Stochastic Approximation:随机近似Stochastic Gradient Descent:随机梯度下降第 7 章 的 Temporal-Difference Learning 是 Stochastic Approximation 的一个特殊情况。随机梯度下降 是 RM 算法的特例4、Batch Gradient Descent、Mini-batch Gradient

2024-06-30 13:41:45 430

原创 # [0628] Task04 DQN 算法及进阶

easy-rl PDF版本 笔记整理 P6 - P8 joyrl 比对 补充 P7 - P8 相关 代码 整理 待整理 !!最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases国内地址(推荐国内读者使用):链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6aeasy-rl 在线版本链接 (用于 copy 代码) 参考链接 2:h

2024-06-28 21:47:54 853

原创 # [0624] Task03 深度学习基础

参考链接 :https://datawhalechina.github.io/joyrl-book/开源内容:https://linklearner.com/learn/summary/11。LSTM (输入门、遗忘门、输出门)、GRU(更新门、重置门)局部感受野、权重共享、池化层、归一化和 Dropout。连续动作, 汽车方向盘转动角度, tanh 激活函数。Adam: 当前梯度 和 之前梯度的平方。动量法: 考虑当前的梯度 和 之前的梯度。线性回归 均方差损失。逻辑回归 交叉熵损失。

2024-06-24 21:17:31 917

原创 ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch5 蒙特卡洛方法【model-based ——> model-free】

PPT 截取必要信息。课程网站做习题。

2024-06-23 15:28:51 820

原创 # [0622] Task02 model-free 免模型类 RL 算法的预测和控制 【ε 贪心策略 优化的证明】

其一是智能体在测试的时候直接用模型预测的动作输出就行,即在训练中是采样动作(带探索),测试中就是预测动作,其二是训练过程中不需要更新策略,因为已经收敛了。时序差分: 每走一步更新一次 Q 表格, 用下一个状态的 Q 值 来 更新当前状态 的 Q 值。同策略:学习的策略 和 与环境交互的策略 是同一个。时序差分 优势: 低方差, 能够在线学习, 能够从不完整的序列中学习。同策略 VS 异策略: 生成样本的策略 和 参数更新的策略 是否相同。Q 学习, 异策略, 优化策略 没有用到 行为策略的数据。

2024-06-22 21:18:08 469

原创 # [0619] Task01 绪论、马尔可夫过程、动态规划 【OpenAI_Gym 库】

最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6a参考链接 2:https://datawhalechina.github.io/joyrl-book/——————5、深度强化学习基础 ⭐️开源内容:https://linklearner.com/learn/summary/11。

2024-06-19 23:45:58 1132

原创 ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch4 值迭代 与 策略迭代 【动态规划 model-based】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 + 学堂在线 习题 2、过 电子书 补充 【下载: 本章 PDF 电子书 GitHub】 [又看了一遍视频。原来第一次跳过了好多内容。。。] 3、总体 MOOC 过一遍 习题学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub 链接】总述:开始介绍第一个可以找到最优策略的算法。 ——> 动态规划算法介绍 3 种 迭代算法:1

2024-06-19 17:51:45 1104

原创 ⭐ ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch3 贝尔曼最优公式 【压缩映射定理】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 + 学堂在线 习题 2、过 电子书,补充 【下载:本章 PDF 电子书 GitHub 界面链接】 [又看了一遍视频] 3、总体 MOOC 过一遍 习题学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub 链接】强化学习的最终目标: 寻求最优策略贝尔曼最优公式, 可以求解 最优状态值 和 最优策略。————————P1 如何

2024-06-17 22:04:13 1150

原创 ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch2 贝尔曼公式 【状态值、动作值】

PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍 1、学堂在线 视频 + 习题 2、相应章节 过电子书 复习 GitHub界面链接 3、总体 MOOC 过一遍学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【github链接】文章目录计算 return方法一: 根据定义方法二: 根据状态间 回报 的依赖关系State value 状态值 vπ(s)v_\pi(s)vπ​(s)贝尔曼公式 推导如何写出 Bellm

2024-06-17 12:46:29 853

原创 ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch1 基本概念

PPT 截取有用信息。课程网站做习题。总体 MOOC 过一遍PPT和书籍下载网址:通过 例子 介绍 强化学习 的基本概念基于 马尔可夫决策过程 介绍s1​s2​...s9​状态空间 State space :Ssi​i19​行动 Action:a1​...a5​行动空间 Action space:Asi​ai​i15​状态转移 state transition:s1​a2​​s2​。

2024-06-17 12:39:35 1033

原创 ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch0 一张图讲完强化学习原理

要研究策略迭代算法,首先要了解 值迭代 算法(第 4 章)。,w 是值函数的参数,更新值函数的参数使得这个值函数能够很好地近似或者估计出来 一个策略 所对应的值, 在此基础上再更新策略,得到新的策略,然后再估计它的值。Bellman 方程(第 2 章) ——> Bellman 最优性方程(第 3 章) ——> 值迭代 算法(第 4 章) ——> MC 算法 (第 5 章)有一个不太好的策略——> 估计策略的值 【策略评价】,根据值改进策略——> 估计 新的策略 的值 , 改进策略——>…

2024-06-17 12:33:13 784

原创 #《AI中文版》V3 第 3 章 知情搜索

参考链接:[1] 开源内容:https://github.com/siyuxin/AI-3rd-edition-notes[2]

2024-02-01 19:42:02 952

原创 #《AI中文版》V3 第 2 章 盲目搜索(Blind Search,也称无信息搜索)

参考链接:[1] 开源内容:https://github.com/siyuxin/AI-3rd-edition-notes[2]

2024-01-26 13:27:09 1132

原创 #《AI中文版》V3 第 1 章 概述

参考链接:开源内容:https://github.com/siyuxin/AI-3rd-edition-notes英文版 V2: https://terrorgum.com/tfox/books/artificialintelligenceinthe21stcentury.pdf没找到 V3。

2024-01-19 14:41:36 2172

原创 《视觉 SLAM 十四讲》V2 第 8 讲 视觉里程计2 【如何根据图像 估计 相机运动】【光流 —> 直接法】

包括三个预设,带有预选参数,在速度和质量之间提供合理的权衡。但是,即使是最慢的预设也还是比较快的,如果你需要更好的质量,不关心速度,可以使用DeepFlow。将一个连续的、旋转不变的能量泛函,用于光流计算,该泛函基于两个项:一个具有亮度常数和梯度常数假设的鲁棒数据项,结合一个保持不连续的时空 TV 正则化器。即,使用原始图像的梯度代替目标图像的梯度?2、只要求有像素梯度,不需要特征点,可 在特征缺失的场合使用。输出: 每个图像的每层金字塔上的追踪点,并输出运行时间。1、除了LK光流,还有哪些光流方法?

2023-10-18 17:39:14 340

原创 《视觉 SLAM 十四讲》V2 第 9 讲 后端优化1 【扩展卡尔曼滤波器 EKF && BA+非线性优化(Ceres、g2o)】

发射出来的几束光线(bundles of light rays), 它们会在几个相机的成像平面上变成像素或是检测到的特征点,如果我们调整(adjustment) 各相机姿态和各自特征点的空间位置,使得这些光纤最终收束到 相机的光心,称为 BA。把卡尔曼滤波器 的结果 扩展到 非线性系统中, 扩展卡尔曼滤波器。时刻状态 与 之前所有状态 的关系。前端视觉里程计: 短时间内的轨迹和地图。卡尔曼滤波器构成了线性系统的最优无偏估计。后端优化: 长时间内的最优轨迹和地图。的信息更新自己的状态,也会用。

2023-10-18 17:38:41 724

原创 《视觉 SLAM 十四讲》V2 第 10 讲 后端优化2 简化BA 【位姿图】

控制 BA 规模:仅保留 离当前时刻最近的 N 个关键帧。在大场景中,大量特征点 会严重降低计算效率,计算量越来越大 ——>滑动窗口法 比较适合VO系统,不适合大规模建图系统。BA能精确地优化每个相机位姿与特征点位置。,推导按照此定义的左乘扰动雅克比矩阵。这样构建的误差理想下是0,因为 ln(BA:带有相机位姿和空间点的图优化。改进: 简化BA 【位姿图】查看待优化的位姿图。第9讲 以BA为主的图优化。如果将位姿图中的误差定义为。本题中 位姿图的误差定义为。位姿图优化【简化的BA】

2023-10-18 17:37:48 682

原创 《视觉 SLAM 十四讲》V2 第 12 讲 建图

文章目录12.2 单目稠密 重建12.2.2 极线搜索 && 块匹配12.2.3 高斯分布的深度滤波器12.3 单目稠密重建 【Code】待改进12.3.4 图像间的变换12.4 RGB-D 稠密建图12.4.1 点云地图 【Code】查询OpenCV版本 opencv_version12.4.2 从点云 重建 网格 【Code】查看PCL 版本 aptitude show libpcl-dev12.4.3 八叉树地图(Octomap) 【灵活压缩、随时更新】1

2023-10-18 17:35:50 319

原创 Gazebo仿真 【ROS: noetic】

了解如何使用URDF文件创建一个机器人模型,然后使用xacro文件优化该模型,并且放置到rviz+ArbotiX或Gazebo仿真环境中,以实现丰富的ROS功能。

2023-10-18 17:34:39 1833 1

原创 ROS 示例

在ROS的元功能包common_msgs中提供了许多不同消息类型的功能包,如std_msgs(标准数据类型)、geometry_msgs(几何学数据类型)、sensor_msgs(传感器数据类型)等。新建名为 msg 的文件夹在该文件夹 中通过下列命令 新建文件 Person.msgPerson.msguint8 sexuint8 age编译msg文件(1)在package.xml中添加功能包依赖去掉注释标签定义了功能包中代码编译所依赖的其他功能包,而。

2023-10-18 17:33:46 703

原创 《视觉 SLAM 十四讲》V2 第 7 讲 视觉里程计1 【如何根据图像 估计 相机运动】【特征点法】

github源码链接V2文章目录第 7 讲 视觉里程计17.1 特征点法7.1.1 特征点7.1.2 ORB 特征FAST 关键点 ⟹\Longrightarrow⟹ Oriented FASTBRIEF 描述子7.1.3 特征匹配7.2 实践 【Code】本讲 CMakeLists.txt7.2.1 使用 OpenCV 进行 ORB 的特征匹配 【Code】7.2.2 手写 ORB 特征估计 相机运动【相机位姿 估计】 3种情形 【对极几何、ICP、PnP】7.3 2D-2D: 对极几何 单

2023-10-08 09:33:16 1212

原创 《视觉 SLAM 十四讲》V2 第 6 讲 非线性优化 【高斯牛顿法、列文伯格-马夸尔特方法 、Ceres 库 和 g2o库 】

文章目录6.1.2 最小二乘寻找下降增量Δxk\Delta\bm{x}_kΔxk​的 4 种方法6.2.1 一阶和二阶梯度法(最速下降法、牛顿法)6.2.2 高斯牛顿法6.2.3 列文伯格-马夸尔特方法 【阻尼牛顿法】【信赖区域法】6.3 实践6.3.1 手写高斯牛顿法 【Code】6.3.2 谷歌的优化库 Ceres 【最小二乘问题求解库】【Code】6.3.3 g2o(General Graphic Optimization) 【Code】习题√ 题1题2题3题4LaTex最小二乘法下降策略

2023-10-06 19:15:33 346

原创 《视觉 SLAM 十四讲》V2 第 5 讲 相机与图像

文章目录相机 内参 && 外参5.1.2 畸变模型单目相机的成像过程5.1.3 双目相机模型5.1.4 RGB-D 相机模型实践5.3.1 OpenCV 基础操作 【Code】OpenCV版本查看5.3.2 图像去畸变 【Code】5.4.1 双目视觉 视差图 点云 【Code】5.4.2 RGB-D 点云 拼合成 地图【Code】习题题1√ 题2题3√ 题4题5题6题7空间点 投影到 相机成像平面前面内容总结:1、机器人如何表示自身位姿视觉SLAM: 观测主要

2023-10-05 15:25:28 954

原创 《视觉 SLAM 十四讲》V2 第 4 讲 李群与李代数 【什么样的相机位姿 最符合 当前观测数据】

P71文章目录4.1 李群与李代数基础4.1.3 李代数的定义4.1.4 李代数 so(3)4.1.5 李代数 se(3)指数与对数映射4.2.1 SO(3)上的指数映射罗德里格斯公式推导4.2.2 SE(3) 上的指数映射SO(3),SE(3),so(3),se(3)的对应关系4.3 李代数求导与扰动模型4.3.2 SO(3)上的李代数求导4.3.3 李代数求导4.3.4 扰动模型(左乘)【更简单 的导数计算模型】4.3.5 SE(3)上的李代数求导4.4 Sophus应用 【Code】4.4.2

2023-10-03 19:04:09 1559 1

原创 《视觉 SLAM 十四讲》V2 第 11 讲 回环检测【消除累积误差】

P283。

2023-09-28 20:08:42 672

原创 关于TUM数据集

2、验证回环检测算法,需要有人工标记回环的数据集。然而人工标记回环是很不方便的,我们会考虑根据标准轨迹计算回环。即,如果轨迹中有两个帧的位姿非常相近,就认为它们是回环。请根据TUM数据集给出的标准轨迹,计算出一个数据集中的回环。这些回环的图像真的相似吗?

2023-09-28 16:20:20 1392 16

原创 上网Tips: Linux截取动态效果图工具_byzanz

GIF动图获取 Linux需要命令行窗口

2023-09-28 13:54:21 213

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除