![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
强化学习
文章平均质量分 88
天空467
这个作者很懒,什么都没留下…
展开
-
移动机器人导航中的深度强化学习教程 — 第 5 部分:补充说明
正如您现在已经注意到的,我们使用模拟的Velodyne Puck 16通道LiDAR来记录机器人周围的环境。每个步骤都以 0.1 秒的速率传播,在我们的实现中最多可以有 500 个步骤(使用默认参数)。在本系列文章中,我旨在介绍存储库的 python 代码部分,解释代码,并提供一些见解,以便其他人更容易使用、更改、重构、重新利用或忽略它。FOV设置在从最小值到最大值的范围内,相对于机器人的航向从左到右(如果不更改原点中的“rpy”值)。因此,请尝试一下,看看哪些频率不会在您的实现中导致问题。翻译 2024-04-29 14:59:16 · 98 阅读 · 0 评论 -
移动机器人导航教程中的深度强化学习 — 第 4 部分:环境
回想一下,这是我们想要描述周围环境的激光读数的数量(在我们的例子中,是 20 个读数)。有了这些信息,我们可以计算,如果发生了冲突,并做一些快速的数据操作来保存laser_state(我们复制它以免改变velodyne数据,并准备正确的列表形式)。如果我们给出目标的坐标,相对于机器人的位置,这将为我们提供距离信息。然后,我们实现一种笨拙的方法来计算朝向目标的向量和机器人航向之间的航向差异(请随时更新这部分代码,并回复我更好的解决方案)。我们观察环境,然后采取行动,最终将机器人引向我们的目标。翻译 2024-04-29 10:46:22 · 157 阅读 · 0 评论 -
移动机器人导航中的深度强化学习教程 — 第 3 部分:培训
在本教程的中,我们克隆并安装了 GitHub 存储库,并首次成功启动了机器人导航训练。在中,我们详细研究了训练神经网络的实际组成。现在,在这一部分,是时候看看神经网络的训练是如何在移动机器人运动设置中调用的了。再一次,我们将查看 python 文件中的代码在开始移动机器人的实际运动策略训练之前,我们必须首先了解我们试图解决的任务。用人类的语言来说,我们正试图“但是我们如何将这个问题变成计算机可以理解和执行的东西呢?有两件事需要考虑——动作和动作反应的环境。在移动机器人设置中,很容易用数学形式表达动作。翻译 2024-04-02 22:28:10 · 197 阅读 · 3 评论 -
移动机器人导航中的深度强化学习教程 — 第 2 部分:网络
然后,使用目标网络估计两个评论家网络的下一个状态-动作对的可能 Q 值,并为批处理中的每个样本选择两个输出的最小值。事实上,如果我们直接使用这些优化的参数,我们的学习将非常不稳定,因为每次网络参数都会针对不同的集合进行优化。然而,由于我们需要评估的不是状态,而是行动者对状态的反应,因此我们不仅需要状态信息,还需要行动者网络的行动作为我们批评网络的输入。在我们的例子中,我们将控制一个地面移动机器人,该机器人将具有可控的线性和角速度。最后,我们可以实现完整的TD3网络,这将是我们的演员和评论家网络的结合。翻译 2024-03-30 11:09:10 · 188 阅读 · 0 评论 -
移动机器人导航教程中的深度强化学习 — 第 1 部分:安装
移动机器人导航教程中的深度强化学习翻译 2024-03-29 15:28:57 · 183 阅读 · 1 评论 -
基于深度强化学习完成移动机器人导航
ROS Gazebo 模拟器中移动机器人导航的深度强化学习。使用TD3神经网络,机器人学习在模拟环境中导航到随机目标点,同时避开障碍物。通过激光读数检测障碍物,并在极坐标中为机器人提供目标。使用 PyTorch 在 ROS Gazebo 模拟器中接受训练。在 Ubuntu 20.04 上使用 python 3.8.10 和 PyTorch 1.10 使用 ROS Noetic 进行测试。原创 2024-01-05 10:43:14 · 937 阅读 · 19 评论