4. 算法评价和误差分析
评价和量化估计算法的结果,通常仅有一个变量或变换的估计是不够的,还需要进行置信度或不可靠性的度量(协方差)。
4.1 性能的界定
依据计算得到的模型与(有噪声的)输入数据的匹配程度,或估计得到的模型与原先无噪声的数据吻合程度来评价算法。
4.1.1 Error in one image
- RMS残差:
ε r e s = ( 1 2 n ∑ i = 1 n d ( x i ′ , x ^ i ′ ) 2 ) 1 / 2 \varepsilon_{res}=(\frac{1}{2n}\sum^n_{i=1}d(\textbf{x}'_i,\hat{\textbf{x}}'_i)^2)^{1/2} εres=(2n1i=1∑nd(xi′,x^i′)2)1/2
残差值本身并不是解的质量的一个绝对度量,在渐近情况下方差应该反比例与匹配点数目而减少,与此同时残差将增加;
4.1.2 Error in both images
- RMS残差:
ε r e s = 1 4 n ( ∑ i = 1 n d ( x i , x ^ i ) 2 + ∑ i = 1 n d ( x i ′ , x ^ i ′ ) 2 ) 1 / 2 \varepsilon_{res}=\frac{1}{\sqrt{4n}}(\sum^n_{i=1}d(\textbf{x}_i,\hat{\textbf{x}}_i)^2+\sum^n_{i=1}d(\textbf{x}'_i,\hat{\textbf{x}}'_i)^2)^{1/2} εres=4n1(i=1∑nd(xi,x^i)2+i=1∑nd(xi′,x^i′)2)1/2
4.1.3 Optimal estimators (MLE)
几何误差的最小化等于MLE,任何实现几何误差最小化的算法的目标应该是达到MLE给出的理论界,最小化其他不同代价函数的算法可以根据它与MLE所给出的界的接近程度来作性能判断。
一般的估计问题关系到一个由IRM到IRN的函数
f
f
f,其中IRM是参数空间,而IRN是测量空间。
f
(
P
ˉ
)
=
X
ˉ
f(\bar{P})=\bar{X}
f(Pˉ)=Xˉ,当参数矢量
P
P
P的值在点
P
ˉ
\bar{P}
Pˉ的领域变化时,函数
f
(
P
)
f(P)
f(P)的值形成IRN中过点
X
ˉ
\bar{X}
Xˉ的曲面
S
M
S_M
SM(由
f
f
f的值域给出)是IRN的子流形,其维数是本质参数数目
d
d
d。
给定测量矢量
X
X
X,最大似然(ML)估计
X
^
\hat{X}
X^是
S
M
S_M
SM上的最接近
X
X
X的点,ML估计算法就是返回该曲面上离
X
X
X最近的点的算法,把这个ML估计为
X
^
\hat{X}
X^(
X
X
X到切平面上的垂足),残差则是点
X
X
X到估计值
X
^
\hat{X}
X^的距离,而
X
^
\hat{X}
X^到
X
ˉ
\bar{X}
Xˉ的距离是最佳估计值到真值的距离。
N维高斯分布的总方差是协方差矩阵的迹,即在每一个轴方向的方差的和;给定定义在IRN上的总方差是
N
σ
2
N\sigma^2
Nσ2而均值是真值点
X
ˉ
\bar{X}
Xˉ的各向同性高斯随机变量(独立),ML残差是该随机变量到过
X
ˉ
\bar{X}
Xˉ的超平面(维数
d
d
d)的距离的期望值,IRN上的该高斯随机变量到
d
d
d维切平面的投影给出了估计误差的分布,而到该切平面的
(
N
−
d
)
(N-d)
(N−d)维的法曲面的投影给出残差的分布;IRN上总方差为
N
σ
2
N\sigma^2
Nσ2的各向同性高斯分布向一个
s
s
s维子空间的投影是总方差为
s
σ
s\sigma
sσ的各向同性高斯分布。
- ML估计算法的RMS残差(测量值到估计值的距离):
ε r e s = E [ ∣ ∣ X ^ − X ∣ ∣ / N ] 1 / 2 = σ ( 1 − d / N ) 1 / 2 \varepsilon_{res}=E[||\hat{X}-X||/N]^{1/2}=\sigma(1-d/N)^{1/2} εres=E[∣∣X^−X∣∣/N]1/2=σ(1−d/N)1/2 - ML估计算法的RMS估计误差(估计值到真值的距离):
ε e s t = E [ ∣ ∣ X ^ − X ˉ ∣ ∣ / N ] 1 / 2 = σ ( d / N ) 1 / 2 \varepsilon_{est}=E[||\hat{X}-\bar{X}||/N]^{1/2}=\sigma(d/N)^{1/2} εest=E[∣∣X^−Xˉ∣∣/N]1/2=σ(d/N)1/2
4.1.4 Determining the correct convergence of an algorithm
- Pythagorean:
∣ ∣ X − X ˉ ∣ ∣ 2 = ∣ ∣ X − X ^ ∣ ∣ 2 + ∣ ∣ X ˉ − X ^ ∣ ∣ 2 ||X-\bar{X}||^2=||X-\hat{X}||^2+||\bar{X}-\hat{X}||^2 ∣∣X−Xˉ∣∣2=∣∣X−X^∣∣2+∣∣Xˉ−X^∣∣2
In evaluating an algorithm with synthetic data, this equality allows a simple test to see whether the algorithm has converged to the optimal value.
4.2 变化估计的协方差
变换估计的不可靠性取决与许多因素,包括用于计算的点数、给定的匹配点的准确度以及点的配置,不可靠性通常由变换的协方差矩阵获取。
4.2.1 Forward propagation of covariance
协方差矩阵在仿射变换下的简单性质:令 v \textbf{v} v是IRM中的一个具有均值 v ˉ \bar\textbf{v} vˉ和协方差矩阵 Σ \Sigma Σ的随机矢量,假定 f : I R M → I R N f:IR^M\rightarrow{IR^N} f:IRM→IRN是一个仿射映射,定义为 f ( v ) = f ( v ˉ ) + A ( v − v ˉ ) f(\textbf{v})=f(\bar\textbf{v})+A(\textbf{v}-\bar\textbf{v}) f(v)=f(vˉ)+A(v−vˉ),那么 f ( v ) f(\textbf{v}) f(v)是一个具有均值 f ( v ˉ ) f(\bar\textbf{v}) f(vˉ)和协方差矩阵 A Σ A ⊤ A\Sigma{A}^\top AΣA⊤的随机变量。
- 非线性传播:
f ( v ) ≈ f ( v ˉ ) + J ( v − v ˉ ) f(\textbf{v})\approx{f(\bar\textbf{v})}+J(\textbf{v}-\bar\textbf{v}) f(v)≈f(vˉ)+J(v−vˉ)
令 v \textbf{v} v是IRM中的一个具有均值 v ˉ \bar\textbf{v} vˉ和协方差矩阵 Σ \Sigma Σ的随机矢量,假定 f : I R M → I R N f:IR^M\rightarrow{IR^N} f:IRM→IRN在 v ˉ \bar\textbf{v} vˉ的邻域内可微,那么在精确到一阶近似的程度下, f ( v ) f(\textbf{v}) f(v)是一个具有均值 f ( v ˉ ) f(\bar\textbf{v}) f(vˉ)和协方差矩阵 J Σ J ⊤ J\Sigma{J}^\top JΣJ⊤的随机变量,其中 J J J是 f f f的雅可比矩阵在 v ˉ \bar\textbf{v} vˉ的值。
f ( x , y ) = a x 2 + b x y + c y 2 + d x + e y + f f(x,y)=ax^2+bxy+cy^2+dx+ey+f f(x,y)=ax2+bxy+cy2+dx+ey+f
均值= a σ x 2 + c σ y 2 + f a\sigma^2_x+c\sigma^2_y+f aσx2+cσy2+f,方差= 2 a 2 σ x 4 + b 2 σ x 2 σ y 2 + 2 c 2 σ y 4 + d 2 σ x 2 + e 2 σ y 2 2a^2\sigma^4_x+b^2\sigma^2_x\sigma^2_y+2c^2\sigma^4_y+d^2\sigma^2_x+e^2\sigma^2_y 2a2σx4+b2σx2σy2+2c2σy4+d2σx2+e2σy2
4.2.2 Backward propagation of covariance
- 协方差的反向输送——仿射情形:
令 f : I R M → I R N f:IR^M\rightarrow{IR^N} f:IRM→IRN是形为 f ( P ) = f ( P ˉ ) + J ( P − P ˉ ) f(P)={f(\bar{P})}+J(P-\bar{P}) f(P)=f(Pˉ)+J(P−Pˉ)的仿射映射,其中 J J J的秩等于 M M M,令 X X X是IRN中的一个具有均值 X ˉ = f ( P ˉ ) \bar{X}=f(\bar{P}) Xˉ=f(Pˉ)和协方差矩阵 Σ \Sigma Σ的随机变量,令 f − 1 o η ( X ) f^{-1}o\eta(X) f−1oη(X)是一个具有均值 P ˉ \bar{P} Pˉ的随机变量,其协方差矩阵是 Σ P = ( J ⊤ Σ X − 1 J ) − 1 \Sigma_P=(J^\top\Sigma^{-1}_XJ)^{-1} ΣP=(J⊤ΣX−1J)−1,当 f f f不是仿射映射时,可以通过通常途径用一个仿射函数逼近 f f f来获得均值和方差的近似。
∣ ∣ X − X ^ ∣ ∣ Σ = ∣ ∣ X − f ( P ^ ) ∣ ∣ Σ = ∣ ∣ ( X − X ^ ) − J ( P ^ − P ˉ ) ∣ ∣ Σ ||X-\hat{X}||_\Sigma=||X-f(\hat{P})||_\Sigma=||(X-\hat{X})-J(\hat{P}-\bar{P})||_\Sigma ∣∣X−X^∣∣Σ=∣∣X−f(P^)∣∣Σ=∣∣(X−X^)−J(P^−Pˉ)∣∣Σ
在 ( P ^ − P ˉ ) = ( J ⊤ Σ − 1 J ) − 1 J ⊤ Σ − 1 ( X − X ˉ ) (\hat{P}-\bar{P})=(J^\top\Sigma^{-1}J)^{-1}J^\top\Sigma^{-1}(X-\bar{X}) (P^−Pˉ)=(J⊤Σ−1J)−1J⊤Σ−1(X−Xˉ)时被最小化, P ˉ = f − 1 X ˉ \bar{P}=f^{-1}\bar{X} Pˉ=f−1Xˉ和 P ^ = f − 1 X ^ \hat{P}=f^{-1}\hat{X} P^=f−1X^;
f − 1 o η ( X ) = P ^ = ( J ⊤ Σ − 1 J ) − 1 J ⊤ Σ − 1 ( X − X ˉ ) + f − 1 o η ( X ˉ ) f^{-1}o\eta(X)=\hat{P}=(J^\top\Sigma^{-1}J)^{-1}J^\top\Sigma^{-1}(X-\bar{X})+f^{-1}o\eta(\bar{X}) f−1oη(X)=P^=(J⊤Σ−1J)−1J⊤Σ−1(X−Xˉ)+f−1oη(Xˉ)
4.2.3 Over-parametrization
超参数 f ( P ) ∼ f ( k P ) f(P)\thicksim{f(kP)} f(P)∼f(kP)情况下, Σ P = ( J ⊤ Σ X − 1 J ) − 1 \Sigma_P=(J^\top\Sigma^{-1}_XJ)^{-1} ΣP=(J⊤ΣX−1J)−1的秩 d d d(本质参数数)小于维数 M M M不可逆,通过 ∣ ∣ P ∣ ∣ = 1 ||P||=1 ∣∣P∣∣=1等约束将被估计矢量固定在某个特定的子流行上。
- 协方差的反向输送——超参数化情形:
令 f : I R M → I R N f:IR^M\rightarrow{IR^N} f:IRM→IRN是一个可微映射,它把一组参数 P ˉ \bar{P} Pˉ映射到测量矢量 X ˉ \bar{X} Xˉ,令 S P S_P SP是嵌入IRM中过点 P ˉ \bar{P} Pˉ的 d d d维光滑流形并使得映射 f f f在流形 S P S_P SP上 P ˉ \bar{P} Pˉ的一个邻域内是一一对应的, f f f把 S P S_P SP局域地映射到IRN上的流形 f ( S P ) f(S_P) f(SP),函数 f f f有一个局部逆函数 f − 1 f^{-1} f−1,它限制在曲面 f ( S P ) f(S_P) f(SP)上 X ˉ \bar{X} Xˉ的一个邻域内,定义IRN上的一个具有均值 X ˉ \bar{X} Xˉ和协方差 Σ X \Sigma_X ΣX的高斯分布,并令 η : I R N → f ( S P ) \eta:IR^N\rightarrow{f(S_P)} η:IRN→f(SP)把IRN上的点映射到 f ( S P ) f(S_P) f(SP)上并在Mahalanobis范数意义下最近的点,IRN上具有协方差矩阵 Σ X \Sigma_X ΣX的概率分布通过 f − 1 o η f^{-1}o\eta f−1oη诱导IRM上的概率分布,它在一阶精度下的协方差矩阵是 Σ P = ( J ⊤ Σ X − 1 J ) + A \Sigma_P=(J^\top\Sigma^{-1}_XJ)^{+A} ΣP=(J⊤ΣX−1J)+A,其中 A A A是任意 m × d m\times{d} m×d矩阵,它的列矢量生成 S P S_P SP的过点 P ˉ \bar{P} Pˉ的切空间(参数空间的约束子空间)。
令可微映射 f : I R M → I R N f:IR^M\rightarrow{IR^N} f:IRM→IRN把 P ˉ \bar{P} Pˉ映射到 X ˉ \bar{X} Xˉ,并令 J J J为 f f f的雅可比矩阵,设IRN上一个具有协方差矩阵 Σ X \Sigma_X ΣX的高斯分布定义在 X ˉ \bar{X} Xˉ,同时 f − 1 o η : I R N → I R M f^{-1}o\eta:IR^N\rightarrow{IR^M} f−1oη:IRN→IRM是把一个测量 X X X映到约束在局部正交于 J J J的零空间的曲面 S P S_P SP上的MLE参数矢量 P P P的映射,那么 f − 1 o η f^{-1}o\eta f−1oη诱导在IRM上的一个分布,它的协方差矩阵在一阶精度下是 Σ P = ( J ⊤ Σ X − 1 J ) + \Sigma_P=(J^\top\Sigma^{-1}_XJ)^+ ΣP=(J⊤ΣX−1J)+。(齐次矢量)
4.2.4 Application and examples
计算一个被估计的变换的协方差矩阵的过程如下:
(1) 由给定数据计算变换
H
^
\hat{H}
H^;
(2) 计算雅可比矩阵
J
f
=
∂
X
′
/
∂
h
J_f=\partial{X}'/\partial{\textbf{h}}
Jf=∂X′/∂h在
h
^
\hat\textbf{h}
h^处的值;
(3) 估计
h
\textbf{h}
h的协方差矩阵
Σ
h
=
(
J
f
⊤
Σ
X
′
−
1
J
f
)
+
\Sigma_\textbf{h}=(J^\top_f\Sigma^{-1}_{X'}J_f)^+
Σh=(Jf⊤ΣX′−1Jf)+;
利用Householder矩阵可以确定约束曲面的切平面,
A
h
=
0
Ah=0
Ah=0。
4.2.5 Error in both images
J ⊤ Σ X − 1 J = [ A ⊤ Σ X − 1 A A ⊤ Σ X − 1 B B ⊤ Σ X − 1 A B ⊤ Σ X − 1 B ] J^\top\Sigma^{-1}_XJ= \left[ \begin{array}{cc} A^\top\Sigma^{-1}_XA && A^\top\Sigma^{-1}_XB\\ B^\top\Sigma^{-1}_XA && B^\top\Sigma^{-1}_XB \end{array} \right] J⊤ΣX−1J=[A⊤ΣX−1AB⊤ΣX−1AA⊤ΣX−1BB⊤ΣX−1B]
4.2.6 Using the covariance matrix in point transfer
由
H
H
H的协方差矩阵可以计算点转移中的不可靠性:
Σ
x
′
=
J
h
Σ
h
J
h
⊤
,
J
h
=
∂
x
′
/
∂
h
\Sigma_{\textbf{x}'}=J_\textbf{h}\Sigma_\textbf{h}J_\textbf{h}^\top,J_\textbf{h}=\partial\textbf{x}'/\partial\textbf{h}
Σx′=JhΣhJh⊤,Jh=∂x′/∂h
Σ
x
′
=
J
h
Σ
h
J
h
⊤
+
J
x
Σ
x
J
x
⊤
,
J
x
=
∂
x
′
/
∂
x
\Sigma_{\textbf{x}'}=J_\textbf{h}\Sigma_\textbf{h}J_\textbf{h}^\top+J_\textbf{x}\Sigma_\textbf{x}J_\textbf{x}^\top,J_\textbf{x}=\partial\textbf{x}'/\partial\textbf{x}
Σx′=JhΣhJh⊤+JxΣxJx⊤,Jx=∂x′/∂x
点转移的RMS不可靠性等于
t
r
a
c
e
(
Σ
x
′
)
=
(
σ
x
′
x
′
+
σ
y
′
y
′
)
\sqrt{trace(\Sigma_{\textbf{x}'})}=(\sigma_{x'x'}+\sigma_{y'y'})
trace(Σx′)=(σx′x′+σy′y′),取决于径向距离
r
r
r。
4.3 协方差估计的蒙特卡洛法
当真值不存在时,可以用估计值当作匹配数据点和变换真值来计算协方差,假定数据点的真值与被估计值非常接近。
4.4 总结
- 利用数据的协方差矩阵,可以推导出模型残差和估计误差;
- 根据数据的协方差矩阵,结合协方差正向及反向传播原理计算模型协方差矩阵,用来评测变换估计的不可靠性。