自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 视觉SLAM十四讲第十一讲笔记

视觉SLAM十四讲第十一讲笔记带有相机位姿和空间点的图优化称为BA,能够有效地求解大规模的定位与建图问题。但是,随着时间的流逝,机器人的运动轨迹将越来越长,地图规模也将不断增长。像BA这样的方法,计算效率就会(令人担忧地)不断下降。 本讲主要描述了一个方法,用于更大型场景下使用的后端优化算法。一、位姿图(pose grap)BA中的特征点数量远大于位姿节点。因此在Pose grap中,舍弃了对路标点的优化,只保留Pose之间的边,使用Pose grap。Pose grap图优化的节点表示相机位姿,以ϵ

2021-06-30 10:02:13 200

原创 视觉SLAM十四讲第十二讲笔记

视觉SLAM十四讲第十二讲笔记这一讲关注回环检测。我们知道SLAM主体(前端、后端)主要的目的在于估计相机的运动,而回环检测模块,是用于构建全局一致的轨迹和地图。举个例子:因为前端给出相邻帧之间的估计,很难做到消除积累的误差。但是,回环检测模块,能够给出除了相邻帧之外的,一些时隔更加久远的约束:例如x1−x100x_1 - x_{100}x1​−x100​之间的位姿变换。也就是说我们察觉到相机经过了同一个地方,采集到了相似的数据。而回环检测的关键,就是如何有效地检测出相机经过同一个地方这件事。 这样

2021-06-30 10:00:31 455 1

原创 MobileNets: Efficient Convolutional Neural Networks for Mobile Vision 论文笔记

MobileNets: Efficient Convolutional Neural Networks for Mobile Vision论文链接: https://arxiv.org/abs/1704.04861一、 Problem Statement专门用于移动设备或者嵌入式设备的Backbone。二、 Direction使用深度可分离卷积。引入两个全局超参数(width multiplier and resolution multiplier),用来调节延迟和精度的trade-off。三、

2021-06-29 11:55:27 336

原创 视觉SLAM十四讲第十讲笔记(2)

Bundle Adjustment与图优化在只有观测方程的情况下,这个问题称为BA,并可利用非线性优化方法求解。所谓的Bundle Adjustment,是指从视觉重建中提炼出最优的3D模型和相机参数(内参数和外参数)。从每一个特征点反射出来的几束光线(bundles of light rays),在我们把相机姿态和特征点空间位置做出最优的调整(adjustment)之后,最后收束到相机光心的这个过程,简称为BA。BA算法不仅具有很高的精度,也开始具备良好的实时性。1. 投影模型和BA代价函数回顾一

2021-06-28 11:20:56 295 1

原创 视觉SLAM十四讲第十讲笔记(1)

视觉SLAM十四讲第十讲笔记这一讲讲的是后端。前端视觉里程计能给出一个短时间内的轨迹和地图,但由于不可避免的误差累积,这个地图在长时间内是不准确的。所以,在视觉里程计的基础上,我们还希望构建一个尺度、规模更大的优化问题,以考虑长时间内的最优轨迹和地图。 所以,在后端优化中,我们通常考虑一个更长时间内(或所有时间内)的状态估计问题,而且 ,这种处理方式不妨称为“批量的”(Batch)。否则, 如果当前的状态只由过去的时刻决定,甚至只由前一个时刻决定,那不妨称为“渐 进的”(Incremental)。回顾

2021-06-26 09:00:29 331

原创 Batch Size大小的选择和其影响

batch size的选择对模型有什么影响呢?因为Batch的选择,首先决定的是下降的方向。如果数据集比较小,完全可以采用full batch learning的形式。好处是:较为准确地朝极值方向迭代优化Full batch learning 可以使用Rprop只记与梯度符号并且针对性单独更新各权值。对于数据集很大,那就有问题了。首先,显存肯定不够。第二个就是以Rprop迭代的方式,会由于各个batch 之间的采样性差异,各次梯度修正值相互低效,无法修正。所以才有了后来的RMSProp的方案。

2021-06-25 08:23:02 5829

原创 Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift 论文笔记

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift论文链接: https://arxiv.org/abs/1502.03167一、 Problem Statement在训练的时候,输入分布的变化要求较低的学习率和较为严谨的参数初始化,使得训练模型困难。此外,各层输入分布的变化带来了一个问题,因为各层需要不断地适应新的分布,把这个问题称为内部协变量偏移(internal

2021-06-24 16:33:56 250

原创 视觉SLAM十四讲第七讲笔记(3)

3D-3D: ICP如何通过2D-2D的特征点估计相机运动,如何从3D-2D估计相机运动,现在讲的是3D-3D的姿态估计问题,大部分用在激光雷达SLAM上面和RGB-D SLAM上。假设我们有一组配对好的3D点:P={p1,...,pn},P′={p1′,...,pn′}P=\{p_1, ..., p_n\}, \quad P'=\{p_1', ..., p_n'\}P={p1​,...,pn​},P′={p1′​,...,pn′​}现在我们要找一个欧式变换R,tR,tR,t,使得:∀i,pi=

2021-06-21 10:03:25 180

原创 CornerNet-Lite: Efficient Keypoint-Based Object Detection 论文笔记

CornerNet-Lite: Efficient Keypoint-Based Object Detection论文链接: https://arxiv.org/abs/1904.08900一、 Problem StatementCornerNet的推理速度太慢,提升CornerNet效率。二、 Directionreducing the number of pixels processed --减少处理的像素数量reducing the amount of processing per p

2021-06-19 16:08:30 184

原创 视觉SLAM十四讲第七讲笔记(2)

3D-2D: PnPPnP(perspective-n-Point) 是求解3D到2D点对运动的方法。它描述了当我们知道nnn个3D空间点以及它们的投影位置时候,如何估计相机所在位姿。 2D-2D的对极几何方法需要八个或八个以上的点对(以八点法为例),且存在着初始化、纯旋转和尺度的问题。如果两张图像中,其中一张特征点的3D位置已知,那么最少只需三个点对(需要至少一个额外点验证结果)就可以估计相机运动。特征点的3D位置可以由三角化,或者由RGB-D相机的深度图确定。因此,在双目或RGB-D的视觉里程计中,我

2021-06-19 09:18:39 646

原创 CornerNet: Detecting Objects as Paired Keypoints 论文笔记

CornerNet: Detecting Objects as Paired Keypoints论文链接: https://arxiv.org/abs/1808.01244一、 Problem StatementAnchor boxes 有两个缺点:positive 和 negative anchors数量的不平衡,训练慢。引入了超参数,比如大小,比例,数量等等。二、 DirectionAnchor-free的方法,检测bounding box的左上角和右下角的点,引入了Corner-po

2021-06-17 14:34:37 210 1

原创 视觉SLAM十四讲第七讲笔记 (1)

2D-2D对极几何运动估计和三角测量法本讲关注基于特征点方式的视觉里程计算法。我们将介绍什么是特征点,如何提取和匹配特征点,以及如何根据配对的特征点估计相机运动。前端也称为视觉里程计(VO)。它根据相邻图像的信息,估计出粗略的相机运动,给后端提供较好的初始值。VO的实现方法,按是否需要提取特征,分为特征点法的前端以及不提特征的直接法前端。总结一下:视觉里程计(VO)首先需要找到相邻帧图像数据的对应点,也就是特征点。大部分使用的是ORB特征。ORB特征主要包括两个部分,一个是FAST关键点,一个是BR

2021-06-16 10:32:29 450

原创 ORB特征和FAST关键点 笔记

ORB特征和FAST 关键点1. ORB特征ORB特征由关键点和描述子两部分组成。它的关键点称为"Oriented FAST",是 一种改进的FAST角点,什么是FAST角点我们将在下文介绍。它的描述子称为BRIEF(Binary Robust Independent Elementary Features)。因此,提取ORB特征分为两个步骤:FAST角点提取:找出图像中的"角点"。相较于原版的FAST,ORB中计算了特征点的主方向,为后续的BRIEF描述子增加了旋转不变特性。BRIEF描述子:

2021-06-15 10:39:57 1962 1

原创 视觉SLAM十四讲第六讲笔记

视觉SLAM十四讲第六讲笔记我们已经知道,方程中的位姿可以由变换矩阵来描述,然后用李代数进行优化。观测方程由相机成像模型给出,其中内参是随相机固定的,而外参则是相机的位姿。 然而,由于噪声的存在,运动方程和观测方程的等式必定不是精确成立的。尽管相机可以非常好地符合针孔模型,但遗憾的是,我们得到的数据通常是受各种未知噪声影响的。即使我们有着高精度的相机,运动方程和观测方程也只能近似的成立。 由于在 SLAM 问题中,同一个点往往会被一个相机在不同的时间内多次观测,同一个相机在每个时刻观测到的点也不止一个。所

2021-06-12 10:46:57 253 1

原创 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 论文笔记

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文链接: https://arxiv.org/abs/2103.14030一、 Problem Statement目前在vision task上使用transformer有两个挑战:scale difference。 在目前的transformer-based的方法中,tokens通常都是固定大小,对于vision task不适用,因为视觉的元素可以在尺度

2021-06-10 10:09:07 272

原创 视觉SLAM十四讲第五讲笔记

视觉SLAM十四讲第五讲笔记这一讲主要说的是相机与图像。了解以下相机内参,空间点到相机成像平面的过程。一、相机模型相机模型包括针孔相机模型双目相机模型RGB-D相机模型1. 针孔相机模型假设现实世界空间点PPP, 经过小孔OOO投影之后,落在物理成像平面O′−x′−y′O'-x'-y'O′−x′−y′上,成像点为P′P'P′。设PPP的坐标为[X,Y,Z]T[X,Y,Z]^T[X,Y,Z]T, P′P'P′为X′,Y′,Z′X',Y',Z'X′,Y′,Z′,并且焦距为fff。那么根据三角

2021-06-10 09:36:09 220

原创 视觉SLAM十四讲第四讲笔记

视觉SLAM十四讲第四讲笔记这一讲主要是要理解什么是 李群,李代数。 SO(3), SE(3)与对应李代数的表示方式。理解什么是BCH和 BCH近似的意义。学会在李代数上的 扰动模型。上一讲中,已经了解到了旋转平移的表示方法,但是在SLAM中,除了表示之外,我们还需要进行估计和优化。因为在SLAM中位姿是未知的,而我们需要解决什么样的相机位姿最符合当前观测数据这样的问题。 一种典型的方式是把它构建成一个优化问题,求解最优的R,t ,使得误差最小化。旋转矩阵自身是带有约束的(正交且行列式为1)。它们作为

2021-06-09 10:04:40 259 1

原创 视觉SLAM十四讲第三讲笔记

视觉SLAM十四讲第三讲笔记这一讲主要是讲三维空间刚体运动:主要是理解旋转矩阵,变换矩阵,欧拉角和四元数。一、旋转矩阵相机的位置是指相机在空间中的哪个地方,姿态是指相机的朝向。如何用数学语言表示呢?1. 点和向量,坐标系书中给出了内积和外积的公式:内积:a⋅b=aTb=∑i=13aibi=∣a∣∣b∣cos⟨a,b⟩a \cdot b = a^Tb= \sum_{i=1}^3a_ib_i=|a||b|cos⟨a,b⟩a⋅b=aTb=i=1∑3​ai​bi​=∣a∣∣b∣cos⟨a,b⟩

2021-06-07 10:11:37 286

原创 视觉SLAM十四讲第二讲笔记

视觉SLAM十四讲第二讲笔记本书主要围绕下面的框架逐个部分讲解。一、视觉SLAM的整体框架经典视觉SLAM框架:整个视觉SLAM流程包括:传感器数据的读取。在视觉 SLAM 中主要为相机图像信息的读取和预处理。如果在机器人中,还可能有码盘、惯性传感器等信息的读取和同步。视觉里程计。视觉里程计任务是估算相邻图像间相机的运动, 以及局部地图的样子。 VO 又称为前端( Front End )后端优化。后端接受不同时刻视觉里程计测量的相机位姿,以及回环检测的信息,对它们进行优化,得到全局一致的轨

2021-06-05 13:31:18 519

原创 A Survey on Visual Transformer 论文笔记

A Survey on Visual Transformer论文链接: https://arxiv.org/abs/2012.12556一、 Problem Statement本文是transformer的综述。二、 DirectionFormulation of TransformerVision Transformer三、 Method1、 Formulation of TransformerTransformer 一开始是用在NLP领域的。它主要是由相同结构的多个encoder,

2021-06-04 08:50:57 420

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除