本文是论文《Street-View Change Detection with Deconvolutional Networks》的阅读笔记。该文章提出的CDNet变化检测网络被很多其他变化检测论文所引用并作为baseline。但是在网上并没有找到公开的代码,如果哪位朋友有相关的代码,希望能分享一下,感激不尽!
文章提出的方法将多传感器融合的SLAM和快速密度3D重建结合了起来,用以对图像对进行粗略配准,然后再用深度学习方法进行像素级的变化检测。此外创建了一个新的城市变化检测数据集,该数据集比现有的数据集更大,且包含季节和灯光的变化,因此更具挑战性。
一、方法和网络结构
上图是街景变化检测的样例。a~d行分别是在已有建筑旁出现新的建筑物、房子旁的建筑材料被拿走、安装了新的交通信号牌、临时的交通信号牌。左中右三列分别是配准后的
t
1
t_1
t1和
t
2
t_2
t2时间的图像、用红色标注的ground truth图。在不同时间拍摄的图片通常包含感兴趣的变化,如结构性变化(如建筑物、交通信号牌的变化),也包含一些nuisances,如视角、光照、天气、季节、行人、车辆的变化等。经典的变化检测过程可以分为两个步骤:配准和相似性计算。
上图是CDNet的结构图,整个网络以一个图像对作为输入,并得到一个像素级的结构变化分类图。文章使用多传感器融合的SLAM系统,并结合密度3D重建系统来对视频序列进行配准。SLAM系统通过融合GPS、惯性里程计和摄像机的信息来估计车辆轨迹和稀疏的三维场景重建。
相似性函数通常由手工标注的两张图片的颜色、深度和距离的差的绝对值组成。网络的主体部分是一个U-Net网络,其收缩路径用来认知和提取特征,其扩张路径部分用来定位和描述变化区域。在U-Net网络后使用softmax分类器产生最终的变化图。与一般U-Net不同的是,其批正则化参数的计算不是通过统计学方法,而是当作额外的参数进行学习的,这使得在测试时可以绕过批正则化。
文章创建的新数据集VL-CMU-CD源自VL-CMU数据集的子集,共生成了1362个配准后的图像对,每个图像都有手工标记的ground truth结构变化mask和天空的mask。下图是每个生成的数据集中每种类别的占比情况,以及变化样例。
上图是与已有的街景变化检测数据集的对比情况。
训练时使用Adam优化器,训练150个epoch,batch size为10,使用加权交叉熵损失作为损失函数。
用于配置的SLAM部分略……
二、实验
实验选用的是生成的VL-CMU-CD数据集以及Tsunami和GSV数据集。baseline选用PMVS。在Tsunami和GSV数据集上做实验时,先在该数据上训练30个epoch以微调,然后再做测试。
上图是文章提出的方法及PMVS的密集三维重建的定性比较
上图是在VL-CMU数据集上的结果,a、b分别是FPR和TPR曲线的对比、召回率和准确率的曲线对比。
上图是不同变化检测方法的量化比较。
上图是不同方法在多个序列上的结果对比图。
上图是三种变化检测方法在2个不同数据集上的结果比对表。