摘要
现有的基于内容的检索过程中,大部分模型通常使用单一的CNN架构来提取特征,这样就对识别图像局部特征所有限制。首先,本文中提出一种新型的双线性的CNN架构,使用两个并行的CNN作为特征提取器。卷积层直接用于提取不同位置和不同尺度的特征(先pre-trained,后fine-tuned)。此外,提出一种有效的双线性根池化(bilinear root pooling)应用到低维池化层从而减少特征维度,同时保持对于图像特征的识别力。最后,进行端到端反向传播训练进行微调,并学习其参数以完成图像检索任务。基于三个标准数据集上的实验结果表现出来良好的性能。例如基于16位在Oxford 5K达到95.7% ( mAP) ,在 Oxford 105K达到88.6%,此外降低了特征提取的时间和空间代价。
本文的思路和主要贡献
此前的工作主要存在的问题包括:(1)CNN模型微调的有效性,比如说图像分类迁移到图像检索中;(2)相比VLAD特征,基于BOF和Fisher vector这两种聚合local特征,从而提出了VLAD特征(vector of locally aggregated descriptors,TPAMI 2012),直接通过CNN提取特征的有效性;(3)现有的CNN架构产生了不利于图像表示的高维特征;(4)查询处理、相似性/不相似性匹配以及检索的时间和空间性能如何有效的链接在一起。
基于上述问题,本文主要采用两个并行的CNN来进行特征提取,仅仅基于语义内容并没有先验知识(标签、标注等),通过对于基于图像特征和