我读Fine-Grained Change Detection of Misaligned Scenes with Varied Illuminations-CSDN博客

本文链接：https://blog.csdn.net/xuanwu_yan/article/details/49207967

背景介绍
本文贡献
实现方法
实验结果

背景介绍

文章标题：Fine-Grained Change Detection of Misaligned Scenes with Varied Illuminations，ICCV 2015，暂无主页，PDF，Code&Dataset 1。

本文贡献

所有的变化检测都是针对大尺度、且识别的主体具有显著性的图片进行检测，本文提出的方法可以在毫米级别对差异进行检测。本文起点是相机已经对同一场景拍摄了两组照片2，每组照片相机参数不变，环境光变化。这样子变化检测就可以认为只由一下三个方面影响：

环境光
相机+镜头的几何畸变
被拍摄物体的真实变化

本文就针对以上三点提出了一种从粗到精细、最终使用最小化rank进行变化检测的方法。

实现方法

在讲述方法前，先回顾一下本文目标、前提条件、以及难点。目标是做精细的变化检测，前提条件是相同位置拍摄的两组图片，且两幅图片位置相差几乎很小，每组照片有 $K+1$ 幅图像构成，分别为单纯环境光，与加上了 $K$ 个方向的有向光拍摄，这样子好处就是可以对细微变化检测（并且简单方便够便宜）3，见图1。

难点就是上面说的三个影响因素，我们记一下符号表示：

意义

符号

上一次的照片组

X $\textbf{X}$ ，每一列为一幅图片这一次的照片组

Y $\textbf{Y}$ ，每一列为一幅图片环境光不同

L $\textbf{L}$ 相机+镜头的几何畸变

F $\textbf{F}$ 真实场景的变化

C $\textbf{C}$

本文使用到的方法是coarse-to-fine的方法迭代的对上面的三个影响因素求解。为保证结果的准确性，先简单介绍了一下相机重定位的原理。整体流程见图2。

1. 数据采集

就是相机重定位的过程，假设上一次拍了一组照片 $\textbf{X}$ ，这次需要排到几乎相同位置的一组照片 $\textbf{Y}$ ，相信很多有摄影经验的人都知道这是很困难的，因为手抖一下相片都会模糊，这时隔好几个月或者一年的两张照片怎么能一样。这里我们通过不断的调整相机的姿态完成，使用到了单应矩阵(homography matrix)，假设上一次拍的图片是 $R_b$ ，这一次当前图片 $R_r$ ，相机姿态是 $\textbf{I}_c$ ，我们有单应矩阵使得 $R_r=\textbf{H}R_b$ ，通过单应矩阵 $\textbf{H}$ 来调整相机姿态是 $\textbf{I}_c$ ，循环拍摄-调整几次之后我们就得到了一个基本相同的 $R_b$ 和 $R_r$ 。

2. $\textbf{F}$ 的初始化

因为 $\textbf{X}$ 和 $\textbf{Y}$ 中图片的光照是一一对应的，可以先假设有一个全局的环境光打在一幅图片 $\textbf{x}^i\in\mathbb{R}^{3\times N}$ 上，形成 $\textbf{A}^i\textbf{x}^i+\textbf{b}^i$ ，即 $\textbf{y}^i$ 的近似。其中的

[A^i, b^i] = a r g min A i, b i | | A i x ~ i + b i - y ~ i | | 2 F

$[ \hat{\textbf{A}}^i,\hat{\textbf{b}}^i] = arg\min _{\textbf{A}^i, \textbf{b}^i}{||\textbf{A}^i\tilde{\textbf{x}}^i+\textbf{b}^i-\tilde{\textbf{y}}^i||}_F^2$
其中

x~i $\tilde{\textbf{x}}^i$ 和

y~i $\tilde{\textbf{y}}^i$ 是SIFT匹配点对的RGB值形成的矩阵。这个方程就是一个最小二乘法求映射的，把

X $\textbf{X}$ 转化为了

XF $\textbf{X}_\textbf{F}$ 。

3. Normal-aware lighting correction

上小节假设加的是全局环境光，本小节假设加了局域光，用到Lambertian reflectance model，对每个像素 $p$ ，有 $\textbf{I}_p=\int\langle \textbf{n}_p, \omega\rangle\rho_pL(\omega)d\omega$ 。就是像素在照片上显示的颜色=物体与发现夹角余弦 $\times$ 反射率 $\times$ 入射光。加了一个局域入射光，就变成了这个样子：

x L F p = \int ⟨ n p, ω ⟩ ρ p (L x (ω) + L v (ω)) d ω = x F p + L v p = y p

$\textbf{x}_{\textbf{LF}_p}=\int\langle \textbf{n}_p, \omega\rangle\rho_p\left( L^\mathbf{x}(\omega)+L^\mathbf{v}(\omega)\right)d\omega=\textbf{x}_{\textbf{F}_p}+\textbf{L}_p^\mathbf{v}=\textbf{y}_p$
第二个等号后面，第一项

xFp $\textbf{x}_{\textbf{F}_p}$ 是上小节处理过后的图片的像素

p $p$ 位置的值，第二项

Lvp $\textbf{L}_p^\mathbf{v}$ 是文章假设局域光对像素点的影响。

L i = a r g min L v \sum p (x i F p + L v p - y i p) 2 exp (- C p σ) + α \sum p \sim q ω p q (L v p - L v q) 2

$\textbf{L}^i = arg\min _{\textbf{L}^\mathbf{v}}\sum _p\left( \textbf{x}_{\textbf{F}_p}^i+\textbf{L}_p^\mathbf{v}-\textbf{y}_p^i\right)^2\exp\left(-\frac{\textbf{C}_p}{\sigma}\right)+\alpha\sum_{p\sim q}\omega_{pq}\left(\textbf{L}_p^\mathbf{v}-\textbf{L}_q^\mathbf{v}\right)^2$
第一个求和符号保证的是拟合程度高，其中

Cp $\textbf{C}_p$ 表示上次检测时，此像素变化情况，如果接近1则表示上次变化很大，进而

exp(−Cpσ) $\exp\left(-\frac{\textbf{C}_p}{\sigma}\right)$ 接近于零。也就是说，对于变化区域不用追求光照一致化，免得光照矫正把微小变化给搞没了。
第二个求和符号项鼓励局域光平滑性好。

p∼q $p\sim q$ 表示相邻的像素，

ωpq $\omega_{pq}$ 就是两个像素的相似度，求法是使用色度（照片颜色除以光强）。
于是我们得到局域光调整过后的图片

XL $\textbf{X}_\textbf{L}$ 。

4. 相机几何校正

引用自Sift flow: Dense correspondence across scenes and its applications，改了一下能量方程：

E (F) = \sum i, p | | x i L (p + F p) - y i (p) | | 1 exp (- C p σ) + β \sum p | | F p | | 22 + \sum p \sim q min (γ | | F p - F q | | 1, d)

$E(\textbf{F})=\sum _{i,p} ||\textbf{x}_\textbf{L}^i(p+\textbf{F}_p)-\textbf{y}^i(p)||_1\exp\left(-\frac{\textbf{C}_p}{\sigma}\right)+\beta\sum _p||\textbf{F}_p||_2^2+\sum _{p\sim q}\min(\gamma||\textbf{F}_p-\textbf{F}_q||_1,d)$
具体实现可以看一下被引用的文章 4。本文里说使用1小节中的方法就可以初始化

F $\textbf{F}$ 了。
此步骤后图片的标记变为

XLF $\textbf{X}_\textbf{LF}$ 。

5. Low-rank变化检测

重点来啦，各位请打起精神，这一节我们就会得到一个变化概率图像。
首先，两组图像根据环境光两两匹配，对第i对图像我们就有两列矩阵 $\textbf{O}^i=[\textbf{X}_\textbf{LF}^i,\textbf{Y}^i]$ ，第一列是上一节处理图像（拉长变成了一列），第二列为本次拍摄的图片。于是有 $\textbf{O}=[\textbf{O}^1,...,\textbf{O}^{K+1}]\in\mathbb{R}^{3N\times 2(K+1)}$ 。

然后建立了目标方程：

a r g min Z, E | | Z | | * + λ | | E | | 1 + κ | | T E | | 2 F s . t . O = Z + E

$arg\min _{\textbf{Z}, \textbf{E}}||\textbf{Z}||_*+\lambda||\textbf{E}||_1+\kappa||\textbf{TE}||_F^2\\ s.t.\;\;\;\;\textbf{O}=\textbf{Z}+\textbf{E}$

Z $\textbf{Z}$ 表示不变部分，

E $\textbf{E}$ 表示非常离散的变化部分，

T=diag(A,A,A) $\textbf{T}=diag(\textbf{A},\textbf{A},\textbf{A})$ 表示像素的相邻关系，如果两个像素

pq $pq$ 相邻，有

App=Aqq=1,Apq=Aqp=−1 $\textbf{A}_{pp}=\textbf{A}_{qq}=1,\textbf{A}_{pq}=\textbf{A}_{qp}=-1$ ，使用拉格朗日乘子法，目标方程变为：

a r g min Z, E | | Z | | * + λ | | J | | 1 + κ | | T E | | 2 F + Φ (Y 1, O - Z - E) + Φ (Y 2, Y - E)

$arg\min _{\textbf{Z},\textbf{E}}\;\;||\textbf{Z}||_*+\lambda||\textbf{J}||_1+\kappa||\textbf{TE}||_F^2+\Phi(\textbf{Y}_1,\textbf{O}-\textbf{Z}-\textbf{E})+\Phi(\textbf{Y}_2,\textbf{Y}-\textbf{E})$
稍微解释一下，

Y1,Y2 $\textbf{Y}_1,\textbf{Y}_2$ 是拉格朗日算子，

Φ(Y,Z)=μ2||Y||2F+⟨Y+Z⟩ $\Phi(\textbf{Y},\textbf{Z})=\frac{\mu}{2}||\textbf{Y}||_F^2+\langle \textbf{Y}+\textbf{Z}\rangle$ ，使用ALM算法求解 5[^cite3]。

最后把 $\textbf{E}$ 取平均值得到差异概率矩阵 $\textbf{C}$ 。

6. Coarse-to-fine优化以及最终结果

图2很直观，差不多3到5个循环3-5小节的步骤就能结果收敛，这时候简单的对 $\textbf{C}$ 一个阈值分割就可以得到结果，本文却没这样做。而用了金字塔模型构造了所有层的平局值 $\textbf{C}^{all}$ ，然后用线性SVM分类，像素特征是周围 $7\times 7$ 网格的线性排列。这样就有了最终结果。

实验结果

颐和园数据集 $\textbf{D}_\textbf{p}$

Method	F1	Re	Pr	Sp	FRR	FNR	PWC
SC_SOBS A	0.03	0.90	0.01	0.09	0.91	0.10	89.80
SC_SOBS M	0.02	0.97	0.01	0.03	0.97	0.03	96.21
SC_SOBS LFA	0.11	0.34	0.06	0.95	0.05	0.66	5.62
SC_SOBS LFM	0.16	0.20	0.14	0.99	0.01	0.80	1.92
SubSENSE A	0.02	0.55	0.02	0.60	0.40	0.45	39.41
SubSENSE M	0.02	0.93	0.01	0.20	0.80	0.07	78.85
SubSENSE LFA	0.08	0.04	0.05	0.99	0.01	0.96	1.81
SubSENSE LFM	0.07	0.22	0.04	0.95	0.05	0.78	5.85
Ours (D&T)	0.34	0.28	0.52	1.00	0.00	0.72	0.92
Ours (SVM)	0.51	0.53	0.47	0.99	0.01	0.47	1.02

实验室内壁画试块数据集 $\textbf{D}_\textbf{b}$

Method	F1	Re	Pr	Sp	FRR	FNR	PWC
SC_SOBS A	0.03	0.31	0.02	0.69	0.31	0.69	31.52
SC_SOBS M	0.03	0.36	0.02	0.65	0.35	0.64	35.07
SC_SOBS LFA	0.02	0.02	0.03	0.99	0.01	0.98	1.99
SC_SOBS LFM	0.09	0.08	0.14	0.99	0.01	0.92	2.01
SubSENSE A	0.24	0.50	0.31	0.72	0.28	0.50	28.32
SubSENSE M	0.23	0.67	0.19	0.66	0.34	0.33	34.01
SubSENSE LFA	0.06	0.03	0.26	1.00	0.00	0.97	1.43
SubSENSE LFM	0.28	0.21	0.50	0.99	0.01	0.79	1.62
Ours (D&T)	0.45	0.40	0.56	1.00	0.00	0.60	1.23
Ours (SVM)	0.53	0.62	0.48	0.99	0.01	0.38	1.41

雕像数据集 $\textbf{D}_\textbf{s}$

Method	F1	Re	Pr	Sp	FRR	FNR	PWC
SC_SOBS A	0.01	0.59	0.00	0.78	0.22	0.41	22.29
SC_SOBS M	0.01	0.66	0.00	0.73	0.27	0.34	27.41
SC_SOBS LFA	0.19	0.34	0.14	1.00	0.00	0.66	0.31
SC_SOBS LFM	0.27	0.44	0.19	1.00	0.00	0.56	0.24
SubSENSE A	0.02	0.83	0.01	0.88	0.12	0.17	12.13
SubSENSE M	0.01	0.98	0.00	0.66	0.34	0.02	34.28
SubSENSE LFA	0.27	0.28	0.34	0.99	0.01	0.72	1.57
SubSENSE LFM	0.12	0.77	0.07	0.95	0.05	0.23	5.37
Ours (D&T)	0.53	0.78	0.43	1.00	0.00	0.22	0.28
Ours (SVM)	0.51	0.86	0.39	1.00	0.00	0.14	0.29

金字塔模型不同层数的 F-1 measure

Dataset	1 Level	2 Levels	3 Levels
$\textbf{D}_\textbf{p}$	0.3595	0.4476	0.5134
$\textbf{D}_\textbf{b}$	0.3907	0.4897	0.5254
$\textbf{D}_\textbf{s}$	0.4236	0.6737	0.5118

ROC曲线

这篇文章主要作者均为本人研究生所在项目组人员，一作是小编的导师，二三四作是师弟，五作是师娘，六作为项目负责人。本项目源自敦煌研究院联合天津大学共同完成的一个文物保护项目，本项目的目标是对敦煌壁画进行病害监测，部分内容涉密。 ↩
共分为两步，粗定位和精细定位，粗定位的两种方法已经申请发明专利，精细定位方法涉及多极几何，软硬件均为本文作者与孙高工、岳师弟共同完成。 ↩
另外一种对细微变化检测的方式是使用相机从多角度拍摄后3D建模，但是多光照和多相机姿态太太太具有挑战性了，并且3D建模的变化检测结果误差太大（不能保证pixel-level的检测，你懂的）。 ↩
Liu, Ce, Jenny Yuen, and Antonio Torralba. “Sift flow: Dense correspondence across scenes and its applications.” Pattern Analysis and Machine Intelligence, IEEE Transactions on 33.5 (2011): 978-994. ↩
Lin, Zhouchen, et al. “Fast convex optimization algorithms for exact recovery of a corrupted low-rank matrix.” Computational Advances in Multi-Sensor Adaptive Processing (CAMSAP) 61 (2009).
[^cite3]: Liu, Guangcan, et al. “Robust recovery of subspace structures by low-rank representation.” Pattern Analysis and Machine Intelligence, IEEE Transactions on 35.1 (2013): 171-184. ↩