半闲居士视觉SLAM十四讲笔记（5）相机与图像 - part 1 相机模型

本文链接：https://blog.csdn.net/youngpan1101/article/details/71088127

本系列文章由 youngpan1101 出品，转载请注明出处。
文章链接：http://blog.csdn.net/youngpan1101/article/details/71088127
作者：宋洋鹏（youngpan1101）
邮箱： yangpeng_song@163.com

该讲详细资料下载链接【Baidu Yun】【Video】【Code】

若您觉得本博文对您有帮助，请支持高博的新书《视觉SLAM十四讲》，【点击购买】
若您觉得本博文对您有帮助，请支持高博的新书《视觉SLAM十四讲》，【点击购买】
若您觉得本博文对您有帮助，请支持高博的新书《视觉SLAM十四讲》，【点击购买】

相机与图像

本章主要讨论相机成像的过程，通俗地讲，就是相机如何观测外部世界。

相机模型

相机几何模型：将三维空间中的点（单位为米）映射到二维图像平面（单位为像素）的过程。
$\color{Red}{针孔模型}$ 是常见且有效的模型。
因为相机镜头透镜的存在，使得光线投影到成像平面过程中产生了 $\color{Red}{畸变}$ 。

针孔相机模型

(ps: 引自视觉SLAM十四讲图5-1 针孔相机模型)
如上图所示，建立相机坐标系（ $\rm {O-xyz}$ ），图像物理坐标系（ $\rm {O'-x'y'z'}$ ），图像像素坐标系（ $\rm {o-uv}$ ）。

$\color{Red}{相机坐标系} \Longrightarrow \color{Red}{图像物理坐标系}$

设三维空间中点 $\boldsymbol P$ 在相机坐标系下的坐标为 $[X, Y, Z]^{T}$ ，其投影落在物理成像平面上，像点 $\boldsymbol P'$ 在图像物理坐标系下的坐标为 $[X', Y', Z']^{T}$ ，物理成像平面到小孔的距离为焦距 $f$ （单位为米），根据三角形相似原理，得：

$Z f = - X X ' = - Y Y ' (5.1)$ $\frac{Z}{f} = -\frac{X}{X'} = -\frac{Y}{Y'} \tag{5.1}$
式 (5.1) 中负号表示成的像是倒立的，这里将成像平面对称到相机前方（处理真实世界与相机投影的数学方法），以简化模型：

$Z f = X X ' = Y Y ' ⟹ {X' = f X Z Y' = f Y Z (5.2)$ $\frac{Z}{f} = \frac{X}{X'} = \frac{Y}{Y'} \color{Blue}{\Longrightarrow} \begin{cases} X' = f \frac{X}{Z} \\ Y' = f \frac{Y}{Z} \\ \end{cases} \tag{5.2}$
$\color{Red}{图像物理坐标系} \Longrightarrow \color{Red}{图像像素坐标系}$

像点 $\boldsymbol P'$ 到图像像素坐标系（原点 $o'$ 位于图像的左上角， $u$ 轴向右与 $x$ 轴平行， $v$ 轴向右与 $y$ 轴平行）下的点 $\boldsymbol P_{uv}$ （ $[u,v]^{T}$ ）的变换关系为：

$⎧ ⎩ ⎨ u = X ' d x + c x v = Y ' d y + c y (5.3)$ $\begin{cases} u = \frac{X'}{dx} + c_{x} \\ v = \frac{Y'}{dy} + c_{y} \\ \end{cases} \tag{5.3}$
式 (5.3) 中 $dx, dy$ 分别为图像上每一个像素点在 $u$ 轴、 $v$ 轴方向上的物理尺寸（单位为米每像素）；
$\qquad \quad \; \; \$ $c_{x}, c_{y}$ 分别为图像物理坐标系原点 $\rm O'$ 在图像像素坐标系下 $u$ 轴、 $v$ 轴的坐标（单位为像素）。
$\color{Red}{相机坐标系} \Longrightarrow \color{Red}{图像像素坐标系}$

将式 (5.2) 代入式 (5.3) 可得相机坐标系下的点 $\boldsymbol P$ 到图像像素坐标系下的点 $\boldsymbol P_{uv}$ 的变换关系：

$⎧ ⎩ ⎨ u = f d x X Z + c x v = f d y Y Z + c y (5.4)$ $\begin{cases} u = \frac{f}{dx} \frac{X}{Z} + c_{x} \\ v = \frac{f}{dy} \frac{Y}{Z} + c_{y} \\ \end{cases} \tag{5.4}$
将式 (5.4) 中的 $\frac{f}{dx}, \frac{f}{dy}$ 分别合并成 $f_{x}, f_{y}$ （单位为像素），整理得：
$Z ⎡ ⎣ ⎢ u v 1 ⎤ ⎦ ⎥ = ⎡ ⎣ ⎢ f x 00 0 f y 0 c x c y 1 ⎤ ⎦ ⎥ ⎡ ⎣ ⎢ X Y Z ⎤ ⎦ ⎥ = K P (5.5)$ $Z \begin{bmatrix} u \\ v \\ 1 \\ \end{bmatrix} = \begin{bmatrix} f_{x} & 0 & c_{x} \\ 0 & f_{y} & c_{y} \\ 0 & 0 & 1 \\ \end{bmatrix} \begin{bmatrix} X \\ Y \\ Z \\ \end{bmatrix} = \boldsymbol {KP} \tag{5.5}$
式 (5.5) 中的 $\boldsymbol {P}$ 为齐次坐标表示，矩阵 $\boldsymbol K$ 为相机的 $\color{Red}{内参}$ （Camera Intrinsics）， 相机内参在出厂之后是固定的，可以通过相机生产厂商获得内参，也可以自己通过 $\color{Red}{标定}$ 方法获得。
$\color{Red}{世界坐标系} \Longrightarrow \color{Red}{图像像素坐标系}$

设点 $\boldsymbol P$ 在世界坐标系下的坐标为 $\boldsymbol P_{w}$ （ $[X_{w}, Y_{w}, Z_{w}]^{T}$ ），世界坐标系到相机坐标系的变换矩阵为 $\boldsymbol T$ ，则 $\boldsymbol P_{w}$ 到 $\boldsymbol P_{uv}$ 的变换关系：

$Z P u v = Z ⎡ ⎣ ⎢ u v 1 ⎤ ⎦ ⎥ = K 3 \times 3 [I 3 \times 3 0 3 \times 1] T 4 \times 4 P w, T = [R 0 T t 1] (5.6)$ $Z \boldsymbol {P}_{uv} = Z \begin{bmatrix} u \\ v \\ 1 \\ \end{bmatrix} = \boldsymbol {K}_{3 \times 3} \left[ \begin{array}{c:c} \boldsymbol {I}_{3 \times 3} & \boldsymbol {0}_{3 \times 1}\\ \end{array} \right] \boldsymbol {T_{4 \times 4}P_{w}}, \quad \boldsymbol {T} = \begin{bmatrix} \boldsymbol {R} & \boldsymbol {t} \\ \boldsymbol {0}^{T} & 1 \\ \end{bmatrix} \tag{5.6}$
由式 (5.6) 中的 $\boldsymbol {P}_{uv}, \boldsymbol {P}_{w}$ 都为齐次坐标表示，相机的位姿 $\boldsymbol {R, t}$ 为相机的 $\color{Red}{外参}$ （Camera Extrinsics），外参会随着相机的运动而发生变化，同时也 是 SLAM 中需要估计的目标，该参数表示相机的运动轨迹。
归一化

(ps: 引自视觉SLAM十四讲图5-5)
$\boldsymbol {TP_{w}}$ 表示将世界坐标系下的齐次坐标变换到相机坐标系下，取前三维进行归一化处理，得到了 $\boldsymbol {P}$ 在相机归一化平面上的投影 $\boldsymbol {P}_{c}$ ：

$P c = ⎡ ⎣ ⎢ ⎢ ⎢ ⎢ ⎢ X Z Y Z 1 ⎤ ⎦ ⎥ ⎥ ⎥ ⎥ ⎥ (5.7)$ $\boldsymbol {P}_{c} = \begin{bmatrix} \frac{X}{Z} \\ \frac{Y}{Z} \\ 1 \\ \end{bmatrix} \tag{5.7}$
$\boldsymbol {P}_{c}$ 称为归一化坐标，它位于相机前方 $Z = 1$ 处的平面上，该平面称为归一化平面。

单目相机成像过程

世界坐标 $\color{Red}\Longrightarrow$ 相机坐标 $\color{Red}\Longrightarrow$ 归一化平面 $\color{Red}\Longrightarrow$ 像素坐标

$\boldsymbol {P}_{w}$ $\begin{aligned} \widetilde {\boldsymbol {P}}_{c} &= [X, Y, Z]^{T} \\ &= \boldsymbol {R}_{cw} \boldsymbol {P}_{w} + \boldsymbol {t}_{cw} \end{aligned}$ $\boldsymbol {P}_{c} =\left[ \begin{matrix} X/Z \\ Y/Z \\ 1 \end{matrix} \right]$
$\boldsymbol {P}_{uv} = \boldsymbol {K} \boldsymbol {P}_{c}$

世界坐标	$\color{Red}\Longrightarrow$ 相机坐标	$\color{Red}\Longrightarrow$ 归一化平面	$\color{Red}\Longrightarrow$ 像素坐标
$\boldsymbol {P}_{w}$	$\begin{aligned} \widetilde {\boldsymbol {P}}_{c} &= [X, Y, Z]^{T} \\ &= \boldsymbol {R}_{cw} \boldsymbol {P}_{w} + \boldsymbol {t}_{cw} \end{aligned}$	$\boldsymbol {P}_{c} =\left[ \begin{matrix} X/Z \\ Y/Z \\ 1 \end{matrix} \right]$	$\boldsymbol {P}_{uv} = \boldsymbol {K} \boldsymbol {P}_{c}$

——————————– 分割线<< $\color{Green}{家有小武，如有一母}$ >>分割线 ——————————–

畸变

径向畸变
- 原因：透镜形状影响光线的传播，导致光线在远离透镜中心的地方比靠近中心的地方更加弯曲。
- 主要包含 桶形畸变 和 枕形畸变：
  
  桶形畸变：图像放大率随着离光轴的距离增加而减小。
  枕形畸变：图像放大率随着离光轴的距离减小而增加。
- 该类畸变可以用和距中心距离有关的二次及高次多项式函数进行纠正：
  ${x c o r r e c t e d = x (1 + k 1 r 2 + k 2 r 4 + k 3 r 6) y c o r r e c t e d = y (1 + k 1 r 2 + k 2 r 4 + k 3 r 6), r = x 2 + y 2 - - - - - - \sqrt (5.8)$ $\begin{cases} x_{corrected} = x(1 + k_{1}r^{2} + k_{2}r^{4} + k_{3}r^{6}) \\ y_{corrected} = y(1 + k_{1}r^{2} + k_{2}r^{4} + k_{3}r^{6}) \\ \end{cases}, \quad r = \sqrt{x^{2}+y^{2}} \tag{5.8}$
  式 (5.8) 中的 $[x,y]^{T}$ 是未矫正的点的坐标， $[x_{corrected},y_{corrected}]^{T}$ 是矫正后的点的坐标，它们都是 $\color{Red}{归一化平面}$ 上的点。 $k_{1}, k_{2}$ 分别作用于畸变较小的中心区域，畸变较大的边缘区域，这两个系数适用于普通摄像头，而对于畸变很大的摄像头（比如鱼眼）可以加入 $k_{3}$ 。
切向畸变
- 原因：相机装配误差使得透镜和成像面不完全平行。
  
  (ps: 引自视觉SLAM十四讲图5-4 切向畸变来源示意图)
  使用另外两个参数 $p_{1}, p_{2}$ 来进行矫正：
  ${x c o r r e c t e d = x + 2 p 1 x y + p 2 (r 2 + 2 x 2) y c o r r e c t e d = y + 2 p 2 x y + p 1 (r 2 + 2 y 2) (5.9)$ $\begin{cases} x_{corrected} = x + 2p_{1}xy + p_{2}(r^{2} + 2x^{2}) \\ y_{corrected} = y + 2p_{2}xy + p_{1}(r^{2} + 2y^{2}) \\ \end{cases} \tag{5.9}$
畸变校正
- 视觉 SLAM 一般选择 先对整张图像进行去畸变，再去讨论此图像上的点的空间位置。
- 步骤：
  - 将三维空间点投影到归一化图像平面，其归一化坐标为 $[x,y]^{T}$ 。
  - 对归一化平面上的点进行径向畸变和切向畸变校正（这里使用 5 个畸变项）：
    ${x c o r r e c t e d = x (1 + k 1 r 2 + k 2 r 4 + k 3 r 6) + 2 p 1 x y + p 2 (r 2 + 2 x 2) y c o r r e c t e d = y (1 + k 1 r 2 + k 2 r 4 + k 3 r 6) + 2 p 2 x y + p 1 (r 2 + 2 y 2) (5.10)$ $\begin{cases} x_{corrected} = x(1 + k_{1}r^{2} + k_{2}r^{4} + k_{3}r^{6}) + 2p_{1}xy + p_{2}(r^{2} + 2x^{2})\\ y_{corrected} = y(1 + k_{1}r^{2} + k_{2}r^{4} + k_{3}r^{6}) + 2p_{2}xy + p_{1}(r^{2} + 2y^{2})\\ \end{cases} \tag{5.10}$
  - 将校正后的点变换到图像像素坐标系下，得到该点在图像上的正确位置：
    ${u = f x x c o r r e c t e d + c x v = f y y c o r r e c t e d + c y (5.11)$ $\begin{cases} u = f_{x} x_{corrected} + c_{x} \\ v = f_{y} y_{corrected} + c_{y} \\ \end{cases} \tag{5.11}$

——————————– 分割线<< $\color{Green}{家有小武，如有一母}$ >>分割线 ——————————–

双目相机模型

双目类似人眼可以根据左右眼看到的景物差异（视差）来判断物体与我们的距离。
计算视差

（ps: 引自视觉SLAM十四讲图5-6 双目相机的成像模型）
图 5-6 中， $O_{L}, O_{R}$ —— 左右光圈中心；
$\qquad \qquad \; \ P_{L}, P_{R}$ —— 左、右眼关于三维空间中点 $\boldsymbol {P}$ 的像点；
$\qquad \qquad \; \; \ u_{L}, u_{R}$ —— 成像平面像点的坐标，这里 $u_{R}$ 为负数；
$\qquad \qquad \qquad \quad f$ —— 相机焦距；
$\qquad \qquad \qquad \quad b$ —— 基线（Baseline）；
$\qquad \qquad \qquad \quad z$ —— 三维空间中点 $\boldsymbol {P}$ 的深度值。
左右像素的几何关系（三角形 $P-P_{L}-P_{R}$ 相似于三角形 $P-O_{L}-O_{R}$ ）：
$z - f z = b - u L + u R b (5.12)$ $\frac{z-f}{z} = \frac{b-u_{L} + u_{R}}{b} \tag{5.12}$
整理，得：
$z = f b d, d = u L - u R (5.13)$ $z = \frac{fb}{d}, \quad d = u_{L} - u_{R} \tag{5.13}$
式 (5.13) 中的 $d$ 为左右图的横坐标之差，称为 $\color{Red}{视差}$ （Disparity）。由该式可知

视差越大，距离越近。
基线越长，能测距离越远。
计算深度公式很简洁，但视差计算比较困难，其计算量与精度都将成为问题。

——————————– 分割线<< $\color{Green}{家有小武，如有一母}$ >>分割线 ——————————–

RGB-D 相机模型

（ps: 引自视觉SLAM十四讲图5-7）

物理手段测量深度
- 红外结构光（Structured Light）：Kinect 1 代、Project Tango 1 代、Intel RealSense、Orbbec Astra 等。
  工作原理：向探测目标发射红外结构光，相机根据返回的结构光图案，来计算物体离自身的距离。
- 飞行时间法（Time-of-flight, TOF）：Kinect 2 代、Tango 2 代等。
  工作原理：向探测目标发射脉冲光，根据发送到返回之间的光束飞行时间，来计算物体离自身的距离。
- 劣势
  - 使用范围有限
  - 红外容易受到日光或其他传感器发射的红外光干扰
  - 透射材质因接受不到发射光，无法进行测量
  - 相机的成本、功耗较高