- 博客(29)
- 资源 (2)
- 收藏
- 关注
原创 MarkDown语法(Typora)教程
MarkDown是一种轻量级标记语言,它允许人们使用易读易写的纯文本格式编写文档,MarkDown编写的文档后缀为.md、.markdown,它编写的文档可以导出HTML、Word、图像、PDF、Epub等多种格式的文档。下面来说一说MarkDown用法。MrakDown语法常用的就是这些,本文简单介绍了MrakDown语法和Typora的使用,如有不对,欢迎指正。
2023-11-13 17:02:16 318
原创 Leetcode刷题总结-4.回溯算法篇
回溯法解决的问题都可以抽象为树形结构,是的,我指的是所有回溯法的问题都可以抽象为树形结构!因为回溯法解决的都是在集合中递归查找子集,集合的大小就构成了树的宽度,递归的深度,都构成的树的深度,递归就要有终止条件,所以必然是一棵高度有限的树(N叉树)。本文主要是分享回溯算法求解问题的思路,回溯算法基本上也是递归三部曲解决,只是有些具体问题需要对细节分析一下。
2023-07-01 17:32:16 414
原创 Apollo决策规划算法学习Chapter3 速度规划算法
本文为第三章,主要讲解 Apollo决策规划算法中的速度规划算法,EM planner的速度规划算法同样是是通过动态规划和二次规划实现的,下面来细讲速度规划算法。以上就是今天要讲的内容,本文介绍了Apollo决策规划算法中的速度规划算法,速度规划算法同样是通过动态规划和二次规划实现的。
2023-06-29 10:35:15 2419
原创 Apollo决策规划算法学习Chapter2 路径规划算法
本文为第二章,主要讲解 Apollo决策规划算法中的路径决策算法,EM planner的路径决策算法是通过动态规划和二次规划实现的,下面来分两部分细讲路径决策算法中的动态规划和二次规划算法。
2023-06-28 12:35:25 3288
原创 Apollo决策规划算法学习Chapter1 基本概念
本文为第一章,主要讲解 Apollo决策规划算法的一些基本概念如凸优化、参考线、Frenet坐标系的概念提示:以下是本篇文章正文内容,下面案例可供参考以上就是今天要讲的内容,本文介绍了 Apollo决策规划算法的一些基本概念如凸优化、参考线、Frenet坐标系的概念,同时还介绍了参考线平滑算法Fem smoother。
2023-06-27 16:43:25 1275
原创 Apollo本地规划控制模块调试代码学习
1.2 编译代码提交测评1.3 赛事编译缓存提高编译速度二、Apollo模块调试2.1 慢速车绕行进入apollo/modules/planning/conf,打开配置文件planning_config.pb.tx文件(在149行task_type: SPEED_BOUNDS_PRIORI_DECIDER的地方);【static_obs_nudge_speed_ratio】为绕行限速的百分比;【speed_limit】是地图中约束的限速值(本地图Apollo Map全地图限速60KM/H);
2023-06-06 22:10:06 3002 3
原创 Leetcode刷题总结-3.二叉树篇
二叉树有两种主要的形式:满二叉树和完全二叉树,满二叉树上只有度为0和2的节点,完全二叉树的定义是在除了最底层节点可能没填满外,其余每层节点数都达到最大值,并且最下面一层的节点都集中在该层最左边的若干位置(通俗点说就是没填满的都在最后一层,而且是从左向右,没填满的都是在右边);
2023-05-29 21:28:28 387
原创 2023世界智能驾驶挑战赛(WIDC)仿真赛-感知决策控制组金奖(冠军)方案和代码分享
从上面的图片可以看到,我们的思路是分模块去调试的:感知模块使用单目相机测距,并用卡尔曼滤波对距离估计进行修正,决策模块使用的是有限状态机:三个状态机之间的切换、控制模块使用最常用的PID,下面会详细介绍各个模块调试的流程。2023世界智能驾驶挑战赛(WIDC)元宇宙虚拟仿真赛感知决策控制组的比赛持续了一个多月,从四月份的中下旬开始备赛,前前后后大概一个月的时间,辛苦了一个月拿到了好的成绩还是很值得的,欢迎大家观看学习我们的方案,期待改进出更好的方案来。
2023-05-20 15:23:13 529 1
原创 Leetcode刷题总结-2.动态规划篇
动态规划和贪心算法有一些相似之处,但是也有一些区别,动态规划中每一个状态一定是由上一个状态推导出来的,这一点就区分于贪心,贪心没有状态推导,贪心算法而是从局部直接选最优的,动态规划的解法比贪心更加直观一些。本文主要是分享贪心算法求解问题的思路,贪心算法的题目一般要取最大或者取最小的值的过程,就是要从局部最优推出全局最优。
2023-04-30 16:18:06 382
原创 Linux基础入门与实践
Ubuntu是基于Linux内核的基于桌面的发行版中使用量最大、普及度最高的,本文主要记录一些Linux基础知识和常见的指令本文主要记录一些Linux基础知识和常见的指令。
2023-04-29 22:12:57 327
原创 PID控制原理、参数整定和Stanley控制原理及代码
本文主要讲解常用的控制算法PID控制的原理、参数整定以及斯坦利控制的原理,最后讲解PID、Stanley控制控制的代码。以上就是今天要讲的内容,本文介绍了PID控制、Pure Pursuit 控制和Stanley控制,同时讲解了比较常用的PID控制和Stanley控制的代码。
2023-04-05 18:12:18 3011
原创 Hybrid A*、Kinodynamic RRT*
在之前的文章中,讲解了动力学约束下的State Lattice Planner,在线的生成稠密的Lattice graph会花费过多的时间,怎么样去做剪枝一些节点进行优化呢?Hybrid A*的基本思想是就和Lattice Graph有关。它的基本思想是将栅格地图的路径搜索和Control Lattice Graph结合起来,让栅格地图中的每一个方格中只存在一个节点。选择不同的控制量u驱动向前去积分,积分得到的不同状态保持在每个栅格地图中的机器人可执行节点只有一个;如果有另外的控制量驱动向前积分的状态量
2023-03-29 20:04:08 2271 5
原创 动力学约束下State Lattice planner
动力学约束的概念首先,我们要知道为什么需要Kinodynamic Planning(动力学约束下的规划)?因为我们虽然在后端有轨迹的优化,有如下的原因必须Kinodynamic Planning:其一,如果规划出的轨迹是满足最小化损失的,轨迹不一定适合机器人去执行,非常的反直觉,比如下图的紫色实线的轨迹虽然是最小化损失函数的,它显然不适合机器人去执行,而绿色的虚线是Kinodynamic Planning的结果,轨迹优化后得到的绿色实线是比较适合机器人执行的路径;
2023-03-29 11:35:50 1245
原创 基于采样的路径规划算法RRT和代码实现
本文主要介绍快速扩展随机数算法RRT以及改进的RRT*算法,同时讲解在ROS中实现RRT算法。在正文之前,在前言中讲一个需要知道的概念。规划的完备性:能够在指定的时间内规划出一条正确的路径;概率的完备性:如果能行走通的路径存在,规划器一定能够基于随机采样算法找到它;解决方案完备性:如果能行走通的路径存在,规划器一定能够基于确定性采样方法找到它;提示:以下是本篇文章正文内容,下面案例可供参考。
2023-03-22 21:39:58 2476
原创 Sarsa、Q-Learning算法
前言本文具体讲解一下TD算法:主要讲Sarsa、Q-Learning算法。一、TD Learning1.Sarsa算法首先来回顾一下TD算法:Ut = Rt + r * U(t+1) ;Qπ(st,at)是在状态st和动作at下,Ut的期望;1)表格形式的Sarsa算法:我们的目标是学习Qπ(s,a);如果状态和动作的数量是有限的,那么我们可以画一张表格,表中的一行对应一个状态,一列对应一个动作,表中的每个元素对应一个动作价值,我们要做的就是用Sarsa算法来更新表格,每次更新一个元素;每次观
2022-05-12 17:09:42 766
原创 Actor-Critic 方法
前言本篇文章我们来介绍一下Actor-Critic 方法。一、Actor-Critic 方法1.构造价值网络和策略网络Actor是策略网络,用来控制agent运动;Critic是价值网络,用来给动作打分;Actor-critic方法把策略学习和价值学习结合起来;在讲策略学习的时候,我们说过我们要学习的是Vπ(s)即状态价值函数,可惜我们不知道π(a|s)和Qπ(s,a),所以我们用两个网络分别近似π(a|s)和Qπ(s,a);我们用π(a|s;θ)近似π(a|s),这里θ是神经网络的参数;用q(
2022-05-02 10:14:11 2572
原创 价值学习(Value-based Reinforcement Learning)
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录前言一、价值学习(Value-based Reinforcement Learning)1.Deep Q-Network(DQN)2.训练DQN使用的算法3.TD learning for DQN总结前言讲完强化学习的基本概念,来介绍一下价值学习算法;一、价值学习(Value-based Reinforcement Learning)1.Deep Q-Network(DQN)核心就是用神经网络去近似Q*(s,a)函数.
2022-04-29 10:59:00 3206
原创 策略学习(Policy-Based Reinforcement Learning)
前言前面我们讲了强化学习的基本概念,这节课来说一说强化学习的策略学习(Policy-based)算法。在进入正文之前说一句:策略学习的目标就是要用一个神经网络来近似策略函数,这个神经网络叫做策略网络(Policy Network),它可以用来控制agent运动;想要训练策略网络,就要用到Policy Gradient算法,该算法是策略学习的核心;一、使用步骤1.策略函数π(a|s):它是一个概率密度函数,可以用来自动控制agent运动;它的输入是当前的状态s,输出是一个概率分布;以超级玛丽这.
2022-04-29 10:49:39 3559 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人