Coarse-to-Fine Region Selection and Matching

Coarse-to-Fine Region Selection and Matching

0 Abstract

提出一种宽基线匹配方法(wide baseline matching),使用图像域的层次分解和由粗到细的区域选择来匹配。

本实验通过对显著区域进行采样来降低两幅图像中所有区域的比较成本,系统去除区域以提高效率。

优点:不局限于协变显著区域,在大视角下限制大,导致对应区域很少。

通过对仿射空间进行粗到细的搜索,有效地实现了层次中区域的仿射不变匹配。

在两个基准数据集上的实验表明,在大视角变化的情况下,本实验方法比其他宽基线方法找到了更准确的对应关系(虚报率更低)。

1 Contribution

1、使用图像域的层次分解和粗到细的区域选择宽基线匹配。

2、在视点变化的情况下,分层方法比现有的基于检测器的方法找到了更正确的图像对应(更少的错误匹配)。

3、利用仿射空间的思想,展示如何通过对仿射空间的分层分解来实现区域的高效仿射不变匹配。

2 Coarse-to-Fine Matching Algorithm

本算法在两幅图像 I 1 I_1 I1 I 2 I_2 I2之间找到对应的区域。它由两个层次结构组成,支持从粗到细的搜索。 区域分层,将图像域分解为区域。仿射层次,分解仿射空间。 接下来的两个小节将描述层次结构和从粗到细的搜索。

2.1 Coarse-to-Fine Region Selection

区域层次结构的关键属性是:

1、在层次结构的顶部的区域由大区域组成,在层次结构下方是子区域。——该属性考虑了匹配的效率:任何找到对应的区域都必然意味着所有子区域也都找到对应。因此,不需要匹配次区域。

2、任何由视点变化产生的变换都可以用层次中区域的维度变换任意地很好地逼近。——该属性是必要的,这样才能很好地逼近变换。 它还允许为匹配计算不变区域描述符,提高了效率。

使用一个区域层次结构,该区域包含通过将 I 1 I_1 I1 依次分割成四个相等的矩形而形成的区域。每个区域是层次结构中的一个节点,四个相等的子矩形是该节点的子节点。
在这里插入图片描述

见图1:区域选择算法:通过搜索 I 2 I_2 I2 中的所有邻域和位置,并通过平均归一化互相关(NCC)将这些邻域与区域进行比较,来实现从层次结构顶部的区域开始,假设区域在仿射群下变换,将每个区域与图像 I 2 I_2 I2 进行匹配。

常利用NCC实现仿射对比度变化的不变性,这个过程将符合最高保真度区域的 A 1 A_1 A1 A 2 A_2 A2的第一和第二最佳仿射变换返回到I2中的区域。


在这里插入图片描述

假设 s 1 ≥ s 2 s_1 ≥ s_2 s1s2,计算 I 1 I_1 I1 的最佳仿射变换区域与 I 2 I_2 I2 对应区域之间的NCC得分 s 1 s_1 s1 s 2 s_2 s2

1、第一个阈值测试:当最高分 s 1 s_1 s1满足 0 < T 1 ≤ 1 0 < T1 ≤ 1 0<T11

2、第二个阈值测试:次好与最好的分数 s 2 s 1 < T 2 ( 0 < T 2 ≤ 1 ) \frac{s2}{s1}< T2 (0 < T2 ≤ 1) s1s2<T2(0<T21)

满足1和2,该区域被接受为匹配,不访问层次结构中的子区域。

如果没有以足够的保真度通过第一个阈值测试的区域,则该区域中任何没有通过 A 1 A_1 A1 (该区域的变换)的第一个阈值测试的子区域都被匹配(见图2),其他的子区域都被接受。

(Interest point method:兴趣点方法在匹配前先剔除 I 1 I_1 I1 区域,只选择显著区域,减少区域比较。

本方法,regions are eliminated online:如果层次结构中的某个区域已经匹配,则不再需要再匹配子区域,减少了区域之间的比较。 I 1 I_1 I1中的一个区域与 I 2 I_2 I2中的所有区域相匹配比协变检测器限制更少,因此本方法,更多图像能够相匹配。

2.2 Coarse-to-Fine Affine Search

在这里插入图片描述

R R R是图像领域的子集, I 1 ∣ R I_1|R I1R I 1 I_1 I1限制R

(见图3)将 I 1 ∣ R I_1|R I1R匹配到 I 2 I_2 I2中相应的仿射变换区域 I 2 ∣ A ( R ) I_2|A (R) I2A(R),这要求 I 2 I_2 I2 中的每个位置都与 G L ( 2 ) GL(2) GL(2)群对 I 1 ∣ r I_1|r I1r的所有变换进行比较,其中 G L ( 2 ) GL(2) GL(2)是非奇异2 × 2矩阵的一般线性群。 直接搜索所有 G L ( 2 ) GL(2) GL(2)的代价很高,所以我们引入了一个层次结构来高效地搜索 G L ( 2 ) GL(2) GL(2)

假设 G L ( 2 ) GL(2) GL(2)的一个有限采样。用 G L ( 2 ) GL(2) GL(2)的二维子集的参数 p , q p,q p,q表示, g p , q g_p,q gp,q表示 G L ( 2 ) GL(2) GL(2)的元素 p , q p,q p,q.

N ≥ 1 , P = { p 1 , p 2 , … , p 2 N } N≥1,P = \left\{p_1, p_2,…, p_{2^N}\right\} N1,P={p1,p2p2N} Q = { q 1 , q 2 , … , q 2 N } Q = \left\{q_1, q_2,…, q_{2^N}\right\} Q={q1,q2q2N}为参数p, q的集合。

层次结构如下所示,设 L L L表示层次结构中的层数。在层次的第1级, P P P Q Q Q被分成 2 N − L + l 2^{N−L+ l} 2NL+l个大小为 2 L − l 2^{L−l} 2Ll的子集。设 P i l , Q j l P^l_i, Q^l_j Pil,Qjl表示这些子集,其中 i , j ∈ { 1 , … , 2 N − L + l } i, j∈\left\{1,…, 2^{N−L + l}\right\} i,j{1,2NL+l}。每个子集在 l + 1 l + 1 l+1级定义的是一组在 l l l级的一个子集,即 P i l + 1 ⊂ P ⌊ ( i − 1 ) / 2 ⌋ + 1 l P^{l + 1}_i⊂P^l_{⌊(i−1)/ 2⌋+ 1} Pil+1P(i1)/2+1l Q j l + 1 ⊂ Q ⌊ ( j − 1 ) / 2 ⌋ + 1 l Q^{l + 1}_j⊂Q^l_{⌊(j−1)/ 2⌋+ 1} Qjl+1Q(j1)/2+1l ⌊ ⋅ ⌋ ⌊·⌋ 表示the floor function。见图4。
在这里插入图片描述

考虑到层次结构中的一个节点在 l − 1 l−1 l1级,表示 P i l , Q j l {P^l_i, Q^l_j} Pil,Qjl(四)的集合的子集节点级别 l l l

构造一种方法来选择包含 G L ( 2 ) GL(2) GL(2)参数的子集,将 I 1 ∣ R I_1|R I1R 转换为 I 2 I_2 I2中的一个匹配区域。

为了获得层次结构的速度优势,不需要将每个子集的每个单独元素下的 I 1 ∣ R I_1|R I1R I 2 I_2 I2匹配。

为此,将 { P i l , Q j l } \left\{P^l_i, Q^l_j\right\} {Pil,Qjl}中每个子集的 B i j l B^l_{ij} Bijl定义为 I 1 ∣ R I_1|R I1R的仿射变换的平均值,其中,仿射变换是 P i l , Q j l P^l_i, Q^l_j Pil,Qjl 2 n l ( n l ≤ L − l ) 2^{n_l} (n_l≤L−l) 2nl(nlLl)样本产生的群元素。设 I 1 ∣ R ◦ g − 1 I_1|R◦g^{−1} I1Rg1表示定义在 g ( R ) g(R) g(R)上的仿射变换区域。那么 B i j l : ∩ p ∈ P , q ∈ Q , g p , q ( R ) → R + B^l_{ij}:∩_{p∈P,q∈Q},g_{p,q}(R)→R^+ Bijl:pP,qQ,gp,q(R)R+ B i j l = 1 2 2 n l ∑ p ∈ P , q ∈ Q I 1 ∣ R ◦ g p , q − 1 B^l_{ij} = \frac{1}{2^{2n_l}}\sum_{p∈P,q∈Q}I_1|R ◦ g^{−1}_{p,q} Bijl=22nl1pP,qQI1Rgp,q1

其中 P ⊂ P i l P⊂P^l_i PPiland Q ⊂ Q j l Q⊂Q^l_j QQjl包含 2 n l 2^{n_l} 2nl个元素。其思想是,对于某些 p , q ∈ P i l , Q j l p,q∈P^l_i, Q^l_j p,qPil,Qjl,当 I 1 ∣ R ◦ g p , q − 1 I_1|R◦g^{−1}_{p,q} I1Rgp,q1 I 2 I_2 I2匹配时, B i j l B^l_{ij} Bijl应该与 I 2 I_2 I2 中的匹配区域相关联。

(注意,仅使用 2 n l 2^{n_l} 2nl 样本来提高计算速度。理想情况下,应该将所有样本平均,但实验性能表明,这是不必要的。)

I 2 I_2 I2 中每个像素 x x x的响应 R i j l ( x ) R^l_{ij} (x) Rijl(x)表示 B i j l B^l_{ij} Bijl和像素x中心的 I 2 I_2 I2区域之间的NCC。定义 i ′ j ′ i' j' ij { P i l , Q j l } \left\{P^l_i, Q^l_j \right\} {Pil,Qjl}子集的指数,其包含响应的最高价值,和 x i j ′ x'_{ij} xij像素最高的反应。

i ′ j ′ = a r g m a x i j R i j l ( x ′ i j ) , x ′ i j = a r g m a x x R i j l ( x ) i′j′ = \underset{ij}{arg max}R^l_{ij} \left(x′_{ij} \right), x′_{ij} = \underset{x}{arg max}R^l_{ij} \left(x\right) ij=ijargmaxRijl(xij),xij=xargmaxRijl(x)

子集$P^l_i, Q^l_j $ 的 i j ≠ i ′ j ′ i j \not= i ' j ' ij=ij被消除,这将搜索参数的范围缩小到 P i ′ l , Q j ′ l P^l_{i'},Q^l_{j '} PilQjl,并重复这个过程。这就是算法1。
在这里插入图片描述

2.3 Cost Savings of the Affine Hierarchy

研究了在仿射空间中从粗到细搜索的成本节约和方法的准确性之间的权衡。

仿射层次结构好处:可将线性搜索简化为对数搜索。 层次结构中的级别越多,计算量就越少。

但层次结构中级别越多,意味着层次结构顶部的区域对更广泛程度的转换具有鲁棒性,但差别较小,这可能会导致错误的匹配。


在转盘数据集上进行实验研究:

参数 s ∈ [ 0.8 , 1.2 ] , θ ∈ [ − 6 0 ∘ , 6 0 ∘ ] , h ∈ [ − 0.2 , 0.2 ] , λ ∈ [ 0.8 , 1.2 ] s∈[0.8,1.2],θ∈[−60^\circ,60^\circ],h∈[−0.2,0.2],λ∈[0.8,1.2] s[0.8,1.2]θ[6060]h[0.2,0.2]λ[0.8,1.2]

样本大小512和2048。

运行整个算法(包括通过区域层次结构的搜索),并将其与使用仿射空间的直接线性搜索的区域搜索进行比较。
在这里插入图片描述

在0.1的虚警率下,选择阈值T1和T2作为最大的检测率(准确性)。

(见图5)绘制了检测率与仿射层次结构中的水平数量之间的关系,这与每个区域的响应或NCC计算数量成正比。

结果表明,牺牲0.01 ~ 0.02的检出率,每个区域可节省近200倍的NCC操作。
在这里插入图片描述

(见图6)使用MatLab代码匹配整个图像的单个处理器上的CPU运行时使用5个层次结构,比使用2048个参数的直接线性搜索,整个算法的计算时间减少了10倍。 图片为800 × 600。

3 Theoretical Justification

本节概述了使用分层图像分解的理论理由,以及本实验的仿射匹配方案的不变性性质。

3.1 Justification of the Region Hierarchy(区域等级的正当性)

从视点变化在图像面上引起的变换是分段微分同胚映射(diffeomorphism):

Definition 1

Ω上的分段微分胚φ为

1、对域 { R i } i = 1 n \left\{R_i \right\}^n_{i=1} {Ri}i=1n(映射集)和O闭塞集 ( R i , O ⊂ Ω ) (R_i, O⊂Ω) (Ri,OΩ)进行分区,结果 ∪ i = 1 n R i ∪ O = Ω ∪^n_{i=1}R_i∪O = Ω i=1nRiO=Ω R i ∩ R j = ∅ ( i ≠ j ) R_i∩R_j =∅(i \not= j) RiRj=(i=j) R i ∩ O = ∅ R_i∩O =∅ RiO=,其中n≥1为区域个数。

2、映射 φ i : R i → φ i ( R i ) ⊂ Ω φ_i: R_i→φ_i(R_i)⊂Ω φi:Riφi(Ri)Ω,使 φ i φ_i φi是一个微分同胚映射

3、 φ : Ω ∖ O → Ω φ: Ω\setminus O→Ω φ:ΩOΩ是一对一的

将φ的集合表示为 P D i f f ( Ω ) PDiff(Ω) PDiff(Ω)

尽管与视点下两个图像相关的变换是分段微分同胚映射,但在图像的局部区域内,变换更简单:

Theorem 1

假设 φ ∈ P D i f f ( Ω ) φ∈PDiff(Ω) φPDiff(Ω) ε > 0 ε>0 ε>0,则存在 { P i } \left\{P_i\right\} {Pi} { R i } \left\{Ri\right\} {Ri}和仿射变换 A i ∈ A ( 2 ) A_i∈A(2) AiA(2)的子划分,使得φ在每个集合 P i P_i Pi C 1 C^1 C1范数中逼近误差ε,即

∣ ∣ φ − A i ∣ ∣ C 1 = s u p x ∈ P i ∣ φ ( x ) − A i ( x ) ∣ + ∣ D φ ( x ) − D A i ( x ) ∣ < ε ||φ−A_i||_{C^1} = \underset{x∈P_i}{sup}|φ(x)−A_i(x)|+|Dφ(x)−DA_i(x)| < ε φAiC1=xPisupφ(x)Ai(x)+Dφ(x)DAi(x)<ε

其中D表示雅可比矩阵。

poof:假定每个 R i {R_i} Ri是紧致的。由于 φ ∣ R i φ|R_i φRi是一个异胚, R i R_i Ri内部的每一点都有一个仿射变换和一个邻域,使 ∣ ∣ φ − A i ∣ ∣ C 1 = s u p x ∈ P i ∣ φ ( x ) − A i ( x ) ∣ + ∣ D φ ( x ) − D A i ( x ) ∣ < ε ||φ−A_i||_{C^1} = \underset{x∈P_i}{sup}|φ(x)−A_i(x)|+|Dφ(x)−DA_i(x)| < ε φAiC1=xPisupφ(x)Ai(x)+Dφ(x)DAi(x)<ε满足泰勒定理。

R i R_i Ri的边界上的每个点在 R i R_i Ri内部都有一个邻域和一个仿射变换,使得 ∣ ∣ φ − A i ∣ ∣ C 1 = s u p x ∈ P i ∣ φ ( x ) − A i ( x ) ∣ + ∣ D φ ( x ) − D A i ( x ) ∣ < ε ||φ−A_i||_{C^1} = \underset{x∈P_i}{sup}|φ(x)−A_i(x)|+|Dφ(x)−DA_i(x)| < ε φAiC1=xPisupφ(x)Ai(x)+Dφ(x)DAi(x)<ε可以用Whitney扩展定理来满足。通过紧性,这些邻域对 R i R_i Ri存在一个有限覆盖。每个 R i R_i Ri的这些邻域构成一个满足 ∣ ∣ φ − A i ∣ ∣ C 1 = s u p x ∈ P i ∣ φ ( x ) − A i ( x ) ∣ + ∣ D φ ( x ) − D A i ( x ) ∣ < ε ||φ−A_i||_{C^1} = \underset{x∈P_i}{sup}|φ(x)−A_i(x)|+|Dφ(x)−DA_i(x)| < ε φAiC1=xPisupφ(x)Ai(x)+Dφ(x)DAi(x)<ε的有限集 { P i } \left\{Pi\right\} {Pi}

分割 { P i } \left\{P_i \right\} {Pi}可以用 { P i ′ } \left\{P'_i \right\} {Pi}区域任意地很好地逼近,这些区域由Ω依次分割成四个相等的矩形组成。这就证明了我们选择区域等级制度的合理性。通过将图像域依次分割为四部分而得到的区域上定义的有限的仿射变换集合,可以任意地很好地逼近任何分段微分同胚映射。

现有的兴趣点匹配方案利用局部亲和来设计描述子和检测器,检测器检测到的区域的仿射变换不足以近似分段微分同胚映射。

3.2 Invariants and the Affine Search

展示了本实验的仿射搜索是如何与不变描述符相关的。

I I I表示图像集(即,对于所有子集 Ω Ω Ω,函数形式为 i : Ω ⊂ R 2 → R i: Ω⊂R^2→R i:ΩR2R)。描述符是一个函数 f : I → F f: I→F f:IF,其中F是描述集。

我们感兴趣的描述符是不变的妨害图像形成。在某些情况下,干扰可能形成一组(例如,定义域的平移、旋转和仿射变换)。描述群的某些不变量是可以完成的。用 G G G表示一个组,用 g g g表示 G G G的一个元素。 g g g对图像 i i i的作用为 i ◦ g i◦g ig。我们将描述符的不变性形式化为一个组:

Definition 2(组的不变性)设 G G G为一组。描述符 f : I → F f: I→F f:IF对G是不变的,如果对于所有 i ∈ I i∈I iI g ∈ G , F ( I ◦ g ) = F ( I ) g∈G, F(I◦g) = F(I) gG,F(Ig)=F(I)


常数函数是不变描述符,但在匹配时并不有用。极大不变量更有用:

Definition 3 (群的极大不变量)。对于组 G G G不变的描述符 f : I → F f: I→F f:IF是最大不变的,如果对于所有的 i 0 , i 1 ∈ I , F ( i 0 ) = F ( i 1 ) i_0, i_1∈I, F(i_0) = F(i_1) i0,i1I,F(i0)=F(i1)等价于 g ∈ G g∈G gG满足 I 0 ◦ g = I 1 I_0◦g = I_1 I0g=I1


极大不变量是重要的描述符,因为它们只消除了 G G G的影响。此外,所有其他不变量都是极大不变量的函数。极大不变量与轨道有关,定义为:

Definition 4 s(轨道)。设 G G G是一个群, i ∈ I i∈I iI是一个图像。 i i i的轨道表示为 [ i ] [i] [i] [ i ] = { i ◦ g : g ∈ G } [i] = \left\{i◦g: g∈G\right\} [i]={ig:gG} I I I中所有轨道的集合为轨道空间,用 I / G I/G I/G表示,即 I / G = { [ i ] : i ∈ I } I/G = \left\{[i]: i∈I\right\} I/G={[i]:iI}


极大不变量的特征为:

Theorem 2 设 G G G为一组。定义一个描述符 f f f f : I → I / G f: I→I/G f:II/G F ( i ) = [ i ] F(i) = [i] F(i)=[i]。那么 f f f是关于 G G G的最大不变量。

证明, [ i ] [i] [i]对于 G G G是不变的:让 g ′ ∈ G g'∈G gG,然后 [ i ◦ g ′ ] = { ( i ◦ g ) ◦ g ′ : g ∈ G } = { i ◦ g ′ ′ : g ′ ′ = g g ′ , g ∈ G } = { i ◦ g ′ ′ : g ” ∈ G } = [ i ] [i◦g'] = \left\{(i◦g)◦g': g∈G\right\} =\left\{i◦g'':g'' = gg',g∈G\right\} = \left\{i◦g'':g”∈G \right\} =[i] [ig]={(ig)g:gG}={ig:g=gggG}={iggG}=[i],其中倒数第二个等式由一组同构元素相乘获得(where the second to last equality is obtained since multiplication by a group element is an isomorphism.)。同样,如果 [ I 1 ] = [ I 2 ] [I_1] = [I_2] [I1]=[I2],那么对于每个 g 1 ∈ G g_1∈G g1G,存在 g 2 ∈ G g_2∈G g2G,使得 I 1 ◦ g 1 = I 2 ◦ g 2 I_1◦g_1 = I_2◦g_2 I1g1=I2g2。将 g 1 g_1 g1设置为恒等元素,则存在 g 2 g_2 g2,使 I 1 = I 2 ◦ g 2 I_1 = I_2◦g_2 I1=I2g2,因此轨道是一个最大不变量。

要确定 [ I 1 ] [I_1] [I1]是否= [ I 2 ] [I_2] [I2],只要验证 I 2 ∈ [ I 1 ] I_2∈[I_1] I2[I1] 即可。在本仿射搜索算法中,这个性质被用来检验轨道的相等性。事实上,将一个 R ′ R ' R区域的 [ i 1 ∣ R ] [i_1|R] [i1R] [ i 2 ∣ R ′ ] [i_2|R '] [i2R]匹配是通过通过NCC测试轨道 [ i 1 ∣ R ] [i_1|R] [i1R] i 2 ∣ R ′ i_2|R ' i2R匹配来完成的。

i 1 ∣ R ◦ g p , q i_1|R◦g_{p,q} i1Rgp,q除以P,Q在(1)中的子集的平均值,与不变性和轨道联系起来。

如上所述,轨道的任何函数也是一个不变量,尽管不一定是最大不变量。显然,在轨道上的积分 ∫ G i 1 ∣ R ◦ g d g \int_G i_1|R◦g dg Gi1Rgdg d g dg dg H a a r Haar Haar测度是轨道的函数,因此是不变的。由于轨道上的平均值可能不够有区别,本算法在 G G G的有限的 G ′ G ' G子集上取平均值。这使得所得到的描述子对 G ′ G ' G的小扰动具有鲁棒性。这使得描述符与 I 2 I_2 I2 中相应的区域匹配,前提是 I 1 ∣ R ◦ g ≈ I 2 ∣ R ′ I_1|R◦g≈I_2|R ' I1RgI2R,其中$ g∈G '$

4 Conclusion

引入了一种新的宽基线匹配方法来处理大视点变化。

兴趣点方法是最适合宽基线的方法,但在大视点下性能有限。 兴趣点方法使比较图像间所有区域的任务成为可能,其通过基于显著性的采样区域建立对应关系。 这在匹配之前消除了区域,但从根本上限制了性能,因为协变显著区域在图像中是稀疏的。

本实验在匹配过程中使用层次结构的区域和从粗到细的搜索系统地消除区域,增加了找到的正确对应的数量,同时减少了以不同方式比较各个区域的任务。其通过在仿射空间上使用另一个层次搜索来实现仿射不变匹配的层次区域。

是最适合宽基线的方法,但在大视点下性能有限。 兴趣点方法使比较图像间所有区域的任务成为可能,其通过基于显著性的采样区域建立对应关系。 这在匹配之前消除了区域,但从根本上限制了性能,因为协变显著区域在图像中是稀疏的。

本实验在匹配过程中使用层次结构的区域和从粗到细的搜索系统地消除区域,增加了找到的正确对应的数量,同时减少了以不同方式比较各个区域的任务。其通过在仿射空间上使用另一个层次搜索来实现仿射不变匹配的层次区域。

本方法在两个基准数据集上的大视点变化上优于现有的兴趣点方法,与比较图像之间的所有区域相比,获得了合理的计算时间和相当大的速度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

St-sun

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值