自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 # [0705] Task06 DDPG 算法、PPO 算法、SAC 算法【理论 only】

easy-rl PDF版本 笔记整理 P5、P10 - P12 joyrl 比对 补充 P11 - P13 OpenAI 文档整理 ⭐ https://spinningup.openai.com/en/latest/index.html最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases国内地址(推荐国内读者使用):链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh

2024-07-07 22:12:33 1102 2

原创 # [0701] Task05 策略梯度、Actor-critic 算法

最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6a参考链接 2:https://datawhalechina.github.io/joyrl-book/——————5、深度强化学习基础 ⭐️开源内容:https://linklearner.com/learn/summary/11。

2024-07-01 21:58:34 1151 3

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch8 值函数拟合 【基于近似函数的 TD 算法:Sarsa、Q-leaning、DQN】

PPT 截取有用信息。课程网站做习题。

2024-06-30 13:57:17 717

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch7 时序差分方法 [model-free+增量] 【TD-learning:Sarsa、Q-learning】【贝尔曼期望公式】

PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍 1、学堂在线 视频 + 习题 2、相应章节 过电子书 复习 【下载:本章 PDF 文档GitHub】 3、MOOC 习题 不理解的地方学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub链接】文章目录7.1 状态值 的 TD 学习算法7.2 动作值 的 TD 算法: Sarsa7.2.2 通过 Sarsa 学习最优策略Expected Sa

2024-06-30 13:52:41 387

原创 《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch6 随机近似 和 随机梯度下降 【non-incremental —> incremental 增量】

学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub链接】Stochastic Approximation:随机近似Stochastic Gradient Descent:随机梯度下降第 7 章 的 Temporal-Difference Learning 是 Stochastic Approximation 的一个特殊情况。随机梯度下降 是 RM 算法的特例4、Batch Gradient Descent、Mini-batch Gradient

2024-06-30 13:41:45 419

原创 # [0628] Task04 DQN 算法及进阶

easy-rl PDF版本 笔记整理 P6 - P8 joyrl 比对 补充 P7 - P8 相关 代码 整理 待整理 !!最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases国内地址(推荐国内读者使用):链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6aeasy-rl 在线版本链接 (用于 copy 代码) 参考链接 2:h

2024-06-28 21:47:54 844

原创 # [0624] Task03 深度学习基础

参考链接 :https://datawhalechina.github.io/joyrl-book/开源内容:https://linklearner.com/learn/summary/11。LSTM (输入门、遗忘门、输出门)、GRU(更新门、重置门)局部感受野、权重共享、池化层、归一化和 Dropout。连续动作, 汽车方向盘转动角度, tanh 激活函数。Adam: 当前梯度 和 之前梯度的平方。动量法: 考虑当前的梯度 和 之前的梯度。线性回归 均方差损失。逻辑回归 交叉熵损失。

2024-06-24 21:17:31 911

原创 ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch5 蒙特卡洛方法【model-based ——> model-free】

PPT 截取必要信息。课程网站做习题。

2024-06-23 15:28:51 809

原创 # [0622] Task02 model-free 免模型类 RL 算法的预测和控制 【ε 贪心策略 优化的证明】

其一是智能体在测试的时候直接用模型预测的动作输出就行,即在训练中是采样动作(带探索),测试中就是预测动作,其二是训练过程中不需要更新策略,因为已经收敛了。时序差分: 每走一步更新一次 Q 表格, 用下一个状态的 Q 值 来 更新当前状态 的 Q 值。同策略:学习的策略 和 与环境交互的策略 是同一个。时序差分 优势: 低方差, 能够在线学习, 能够从不完整的序列中学习。同策略 VS 异策略: 生成样本的策略 和 参数更新的策略 是否相同。Q 学习, 异策略, 优化策略 没有用到 行为策略的数据。

2024-06-22 21:18:08 465

原创 # [0619] Task01 绪论、马尔可夫过程、动态规划 【OpenAI_Gym 库】

最新版PDF下载地址:https://github.com/datawhalechina/easy-rl/releases链接: https://pan.baidu.com/s/1isqQnpVRWbb3yh83Vs0kbw 提取码: us6a参考链接 2:https://datawhalechina.github.io/joyrl-book/——————5、深度强化学习基础 ⭐️开源内容:https://linklearner.com/learn/summary/11。

2024-06-19 23:45:58 1127

原创 ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch4 值迭代 与 策略迭代 【动态规划 model-based】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 + 学堂在线 习题 2、过 电子书 补充 【下载: 本章 PDF 电子书 GitHub】 [又看了一遍视频。原来第一次跳过了好多内容。。。] 3、总体 MOOC 过一遍 习题学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub 链接】总述:开始介绍第一个可以找到最优策略的算法。 ——> 动态规划算法介绍 3 种 迭代算法:1

2024-06-19 17:51:45 1090

原创 ⭐ ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch3 贝尔曼最优公式 【压缩映射定理】

PPT 截取必要信息。 课程网站做习题。总体 MOOC 过一遍 1、视频 + 学堂在线 习题 2、过 电子书,补充 【下载:本章 PDF 电子书 GitHub 界面链接】 [又看了一遍视频] 3、总体 MOOC 过一遍 习题学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【GitHub 链接】强化学习的最终目标: 寻求最优策略贝尔曼最优公式, 可以求解 最优状态值 和 最优策略。————————P1 如何

2024-06-17 22:04:13 1142

原创 ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch2 贝尔曼公式 【状态值、动作值】

PPT 截取有用信息。 课程网站做习题。总体 MOOC 过一遍 1、学堂在线 视频 + 习题 2、相应章节 过电子书 复习 GitHub界面链接 3、总体 MOOC 过一遍学堂在线 课程页面链接中国大学MOOC 课程页面链接B 站 视频链接PPT和书籍下载网址: 【github链接】文章目录计算 return方法一: 根据定义方法二: 根据状态间 回报 的依赖关系State value 状态值 vπ(s)v_\pi(s)vπ​(s)贝尔曼公式 推导如何写出 Bellm

2024-06-17 12:46:29 844

原创 ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch1 基本概念

PPT 截取有用信息。课程网站做习题。总体 MOOC 过一遍PPT和书籍下载网址:通过 例子 介绍 强化学习 的基本概念基于 马尔可夫决策过程 介绍s1​s2​...s9​状态空间 State space :Ssi​i19​行动 Action:a1​...a5​行动空间 Action space:Asi​ai​i15​状态转移 state transition:s1​a2​​s2​。

2024-06-17 12:39:35 1022

原创 ▶《强化学习的数学原理》(2024春)_西湖大学赵世钰 Ch0 一张图讲完强化学习原理

要研究策略迭代算法,首先要了解 值迭代 算法(第 4 章)。,w 是值函数的参数,更新值函数的参数使得这个值函数能够很好地近似或者估计出来 一个策略 所对应的值, 在此基础上再更新策略,得到新的策略,然后再估计它的值。Bellman 方程(第 2 章) ——> Bellman 最优性方程(第 3 章) ——> 值迭代 算法(第 4 章) ——> MC 算法 (第 5 章)有一个不太好的策略——> 估计策略的值 【策略评价】,根据值改进策略——> 估计 新的策略 的值 , 改进策略——>…

2024-06-17 12:33:13 769

原创 #《AI中文版》V3 第 3 章 知情搜索

参考链接:[1] 开源内容:https://github.com/siyuxin/AI-3rd-edition-notes[2]

2024-02-01 19:42:02 947

原创 #《AI中文版》V3 第 2 章 盲目搜索(Blind Search,也称无信息搜索)

参考链接:[1] 开源内容:https://github.com/siyuxin/AI-3rd-edition-notes[2]

2024-01-26 13:27:09 1111

原创 #《AI中文版》V3 第 1 章 概述

参考链接:开源内容:https://github.com/siyuxin/AI-3rd-edition-notes英文版 V2: https://terrorgum.com/tfox/books/artificialintelligenceinthe21stcentury.pdf没找到 V3。

2024-01-19 14:41:36 2162

原创 《视觉 SLAM 十四讲》V2 第 8 讲 视觉里程计2 【如何根据图像 估计 相机运动】【光流 —> 直接法】

包括三个预设,带有预选参数,在速度和质量之间提供合理的权衡。但是,即使是最慢的预设也还是比较快的,如果你需要更好的质量,不关心速度,可以使用DeepFlow。将一个连续的、旋转不变的能量泛函,用于光流计算,该泛函基于两个项:一个具有亮度常数和梯度常数假设的鲁棒数据项,结合一个保持不连续的时空 TV 正则化器。即,使用原始图像的梯度代替目标图像的梯度?2、只要求有像素梯度,不需要特征点,可 在特征缺失的场合使用。输出: 每个图像的每层金字塔上的追踪点,并输出运行时间。1、除了LK光流,还有哪些光流方法?

2023-10-18 17:39:14 337

原创 《视觉 SLAM 十四讲》V2 第 9 讲 后端优化1 【扩展卡尔曼滤波器 EKF && BA+非线性优化(Ceres、g2o)】

发射出来的几束光线(bundles of light rays), 它们会在几个相机的成像平面上变成像素或是检测到的特征点,如果我们调整(adjustment) 各相机姿态和各自特征点的空间位置,使得这些光纤最终收束到 相机的光心,称为 BA。把卡尔曼滤波器 的结果 扩展到 非线性系统中, 扩展卡尔曼滤波器。时刻状态 与 之前所有状态 的关系。前端视觉里程计: 短时间内的轨迹和地图。卡尔曼滤波器构成了线性系统的最优无偏估计。后端优化: 长时间内的最优轨迹和地图。的信息更新自己的状态,也会用。

2023-10-18 17:38:41 706

原创 《视觉 SLAM 十四讲》V2 第 10 讲 后端优化2 简化BA 【位姿图】

控制 BA 规模:仅保留 离当前时刻最近的 N 个关键帧。在大场景中,大量特征点 会严重降低计算效率,计算量越来越大 ——>滑动窗口法 比较适合VO系统,不适合大规模建图系统。BA能精确地优化每个相机位姿与特征点位置。,推导按照此定义的左乘扰动雅克比矩阵。这样构建的误差理想下是0,因为 ln(BA:带有相机位姿和空间点的图优化。改进: 简化BA 【位姿图】查看待优化的位姿图。第9讲 以BA为主的图优化。如果将位姿图中的误差定义为。本题中 位姿图的误差定义为。位姿图优化【简化的BA】

2023-10-18 17:37:48 669

原创 《视觉 SLAM 十四讲》V2 第 12 讲 建图

文章目录12.2 单目稠密 重建12.2.2 极线搜索 && 块匹配12.2.3 高斯分布的深度滤波器12.3 单目稠密重建 【Code】待改进12.3.4 图像间的变换12.4 RGB-D 稠密建图12.4.1 点云地图 【Code】查询OpenCV版本 opencv_version12.4.2 从点云 重建 网格 【Code】查看PCL 版本 aptitude show libpcl-dev12.4.3 八叉树地图(Octomap) 【灵活压缩、随时更新】1

2023-10-18 17:35:50 315

原创 Gazebo仿真 【ROS: noetic】

了解如何使用URDF文件创建一个机器人模型,然后使用xacro文件优化该模型,并且放置到rviz+ArbotiX或Gazebo仿真环境中,以实现丰富的ROS功能。

2023-10-18 17:34:39 1806 1

原创 ROS 示例

在ROS的元功能包common_msgs中提供了许多不同消息类型的功能包,如std_msgs(标准数据类型)、geometry_msgs(几何学数据类型)、sensor_msgs(传感器数据类型)等。新建名为 msg 的文件夹在该文件夹 中通过下列命令 新建文件 Person.msgPerson.msguint8 sexuint8 age编译msg文件(1)在package.xml中添加功能包依赖去掉注释标签定义了功能包中代码编译所依赖的其他功能包,而。

2023-10-18 17:33:46 683

原创 《视觉 SLAM 十四讲》V2 第 7 讲 视觉里程计1 【如何根据图像 估计 相机运动】【特征点法】

github源码链接V2文章目录第 7 讲 视觉里程计17.1 特征点法7.1.1 特征点7.1.2 ORB 特征FAST 关键点 ⟹\Longrightarrow⟹ Oriented FASTBRIEF 描述子7.1.3 特征匹配7.2 实践 【Code】本讲 CMakeLists.txt7.2.1 使用 OpenCV 进行 ORB 的特征匹配 【Code】7.2.2 手写 ORB 特征估计 相机运动【相机位姿 估计】 3种情形 【对极几何、ICP、PnP】7.3 2D-2D: 对极几何 单

2023-10-08 09:33:16 1207

原创 《视觉 SLAM 十四讲》V2 第 6 讲 非线性优化 【高斯牛顿法、列文伯格-马夸尔特方法 、Ceres 库 和 g2o库 】

文章目录6.1.2 最小二乘寻找下降增量Δxk\Delta\bm{x}_kΔxk​的 4 种方法6.2.1 一阶和二阶梯度法(最速下降法、牛顿法)6.2.2 高斯牛顿法6.2.3 列文伯格-马夸尔特方法 【阻尼牛顿法】【信赖区域法】6.3 实践6.3.1 手写高斯牛顿法 【Code】6.3.2 谷歌的优化库 Ceres 【最小二乘问题求解库】【Code】6.3.3 g2o(General Graphic Optimization) 【Code】习题√ 题1题2题3题4LaTex最小二乘法下降策略

2023-10-06 19:15:33 340

原创 《视觉 SLAM 十四讲》V2 第 5 讲 相机与图像

文章目录相机 内参 && 外参5.1.2 畸变模型单目相机的成像过程5.1.3 双目相机模型5.1.4 RGB-D 相机模型实践5.3.1 OpenCV 基础操作 【Code】OpenCV版本查看5.3.2 图像去畸变 【Code】5.4.1 双目视觉 视差图 点云 【Code】5.4.2 RGB-D 点云 拼合成 地图【Code】习题题1√ 题2题3√ 题4题5题6题7空间点 投影到 相机成像平面前面内容总结:1、机器人如何表示自身位姿视觉SLAM: 观测主要

2023-10-05 15:25:28 951

原创 《视觉 SLAM 十四讲》V2 第 4 讲 李群与李代数 【什么样的相机位姿 最符合 当前观测数据】

P71文章目录4.1 李群与李代数基础4.1.3 李代数的定义4.1.4 李代数 so(3)4.1.5 李代数 se(3)指数与对数映射4.2.1 SO(3)上的指数映射罗德里格斯公式推导4.2.2 SE(3) 上的指数映射SO(3),SE(3),so(3),se(3)的对应关系4.3 李代数求导与扰动模型4.3.2 SO(3)上的李代数求导4.3.3 李代数求导4.3.4 扰动模型(左乘)【更简单 的导数计算模型】4.3.5 SE(3)上的李代数求导4.4 Sophus应用 【Code】4.4.2

2023-10-03 19:04:09 1557 1

原创 《视觉 SLAM 十四讲》V2 第 11 讲 回环检测【消除累积误差】

P283。

2023-09-28 20:08:42 660

原创 关于TUM数据集

2、验证回环检测算法,需要有人工标记回环的数据集。然而人工标记回环是很不方便的,我们会考虑根据标准轨迹计算回环。即,如果轨迹中有两个帧的位姿非常相近,就认为它们是回环。请根据TUM数据集给出的标准轨迹,计算出一个数据集中的回环。这些回环的图像真的相似吗?

2023-09-28 16:20:20 1383 16

原创 上网Tips: Linux截取动态效果图工具_byzanz

GIF动图获取 Linux需要命令行窗口

2023-09-28 13:54:21 209

原创 《视觉 SLAM 十四讲》V2 ——第 3 讲 【编程环境+旋转表示的四种方式】

待做:https://zhuanlan.zhihu.com/p/388386417关于本笔记的说明: 最好跟着 原书 整理个人笔记,他人笔记仅适合参考部分内容。————————B站链接高翔博客链接百度网盘链接:https://pan.baidu.com/s/1VsrueNrdqmzTvh-IlFBr9Q提取码:vfhegithub源码链接V2《视觉SLAM十四讲》V2 2019年动态定位和环境建模SLAM 同时定位与地图构建SLAM Simultaneous Localiz

2023-09-28 02:26:26 234

原创 《机器人学一(Robotics(1))》_台大林沛群 第 7 周 【轨迹规划_综合】Quiz 7

θ3(弧度值): [(-3.00276174766702,), (-2.70746877163218,), (-0.669714525698784,), (-0.374421549663944,)]θ3(以度为单位): [-172.045575024647, -155.126533777993, -38.3718158011460, -21.4527745544920]θ2(以度为单位): [-31.9721523316306, -28.0813579787176]

2023-09-08 13:47:40 295

原创 《机器人学一(Robotics(1))》_台大林沛群 第 6 周 【轨迹规划_直线转折处抛物线平滑】Quiz 6

步骤:1、 编程 将PPT 的例子 跑一遍, 确保代码无误2、根据题目 修改 相关参数。

2023-09-07 15:18:24 229

原创 Jupyter Notebook_Restart Kernel and Run All Cells 重启并运行全部代码块,要求只运行到 特定代码块

在 待运行 代码块后 加一个 运行必定出错的 代码块。这样整个 book 运行到这里就会停止了。

2023-09-07 11:53:46 260

原创 《机器人学一(Robotics(1))》_台大林沛群 第 5 周【机械手臂 轨迹规划】 Quiz 5

我又行了!🤣求解的 位置 可能会有 变动。注意看题目。

2023-09-07 01:00:39 261

原创 《机器人学一(Robotics(1))》_台大林沛群 第 4 周【机械臂 逆运动学】 Quiz 4

参考 PPT Pieper’s Solution 部分, 题5-8一起做,因为由于 θ1的范围限制,可以排除一些 θ3 值。但 θ2, θ1的选项仍有很多。1)、根据右手定则 : 右手拇指(Z), 四指(X),掌心朝向(Y)的方向,旋转方向与四指弯曲方向相反,为负, α为 -90。注意角度的正负判断: 右手拇指指向Y, 四指弯曲方向为正。参考点: D(桌角) Desk。转向 与四指弯曲方向相反, 为负。第6题和第7题不理解正负怎么定的。杯子——> 桌角——> 机械手。

2023-09-02 17:45:32 762 1

原创 《机器人学一(Robotics(1))》_台大林沛群 第 3 周 【机械手臂 顺运动学】Quiz 3

的方向,旋转方向与四指弯曲方向相反,为负, α为 -90。的方向,旋转方向与四指弯曲方向相反,为负, α为 -90。bug 的图 要求解的 i 位置有误 两套 题目?B. 第2个 坐标系 的原点位置 不便于 计算;上面的正确,后两题 有误, 不知道问题在哪里。标准部分, 前面的更常用,这种仅作为 了解。还是计算过程中保留两位有效数字 不符合。2、确定 旋转角 α 正负的右手定则。1、确定坐标系方向的右手定则。可相交,距离为 0。A: 右手拇指指向。小数点后两位,不符合。

2023-08-29 10:40:43 434

原创 文档整理:python标准库_turtle --- 海龟绘图

Python文档中turtle模块

2022-10-12 18:19:46 1777

原创 上网tips: 让电脑自带的便笺(便利贴、桌面便签)开机启动

电脑桌面 便利贴 设置

2022-10-12 17:41:55 11404 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除