计算机视觉 — 图像检索

最新推荐文章于 2024-09-10 17:04:53 发布

YH-H

最新推荐文章于 2024-09-10 17:04:53 发布

阅读量666

点赞数

本文链接：https://blog.csdn.net/weixin_45601168/article/details/106312963

版权

文章目录

一、Bag of Feature

简介

Bag of Features模型仿照文本检索领域的Bag of Words方法，把每幅图像描写叙述为一个局部区域/关键点(Patches/Key Points)特征的无序集合。使用某种聚类算法(如K-means)将局部特征进行聚类。每一个聚类中心被看作是词典中的一个视觉词汇(Visual Word)。相当于文本检索中的词。视觉词汇由聚类中心相应特征形成的码字(code word)来表示（可看当为一种特征量化过程）。全部视觉词汇形成一个视觉词典(Visual Vocabulary)，相应一个码书(code book)，即码字的集合，词典中所含词的个数反映了词典的大小。图像中的每一个特征都将被映射到视觉词典的某个词上，这样的映射能够通过计算特征间的距离去实现，然后统计每一个视觉词的出现与否或次数。图像可描写叙述为一个维数相同的直方图向量，即Bag of Features。
算法流程

(1) 构造不小于 100张图片的数据集

(2) 针对数据集，做SIFT特征提取

(3) 根据SIFT特征提取结果，采用k-means算法学习“视觉词典.(visual vocabulary)”，其中维度至少满足4个量级(比如10， 50， 100， 1000， 5000 )

(4) 根据IDF原理，计算每个视觉单词的权

(5) 针对数据库中每张图片的特征集，根据视觉词典进行量化以及TF-IDF解算。每张图片转化成特征向量

(6) 对于输入的检索图像(非数据库中图片)，计算SIFT特征，.并根据TF-IDF转化成频率直方图/特征向量

(7) 构造检索图像特征到数据库图像的倒排表，快速索引相关候选匹配图像集

(8) 针对候选匹配图像集与检索图像进行直方图/特征匹配
算法
Bag of Feature的本质是提出一种图像的特征表示方法。

按照Bag of Feature算法的思想，首先我们要找到图像中的关键词，而且这些关键词必须具备较高的区分度。实际过程中，通常会采用SIFT特征。

有了特征之后，我们会将这些特征通过聚类算法得出很多聚类中心。这些聚类中心通常具有较高的代表性，比如，对于人脸来说，虽然不同人的眼睛、鼻子等特征都不尽相同，但它们往往具有共性，而这些聚类中心就代表了这类共性。我们将这些聚类中心组合在一起，形成一部字典（CodeBook）。

对于图像中的每个SIFT特征，我们能够在字典中找到最相似的聚类中心，统计这些聚类中心出现的次数，可以得到一个向量表示（有些文章称之为直方图），如本文开篇的图片所示。这些向量就是所谓的Bag。这样，对于不同类别的图片，这个向量应该具有较大的区分度，基于此，我们可以训练出一些分类模型（SVM等），并用其对图片进行分类。

提取图像特征：

特征必须具有较高的区分度，而且要满足旋转不变性以及尺寸不变性等，因此，我们通常都会采用SIFT特征。SIFT算法是提取图像中局部不变特征的应用最广泛的算法，因此我们可以用SIFT算法从图像中提取不变特征点，作为视觉词汇，并构造单词表，用单词表中的单词表示一幅图像。SIFT会从图片上提取出很多特征点，每个特征点都是 128 维的向量，因此，如果图片足够多的话，我们会提取出一个巨大的特征向量库。

训练字典（ visual vocabulary ）：

提取完特征后，我们会采用一些聚类算法对这些特征向量进行聚类。最常用的聚类算法是 k-means。至于 k-means 中的 k 如何取，要根据具体情况来确定。另外，由于特征的数量可能非常庞大，这个聚类的过程也会非常漫长。聚类完成后，我们就得到了这 k 个向量组成的字典，这 k 个向量有一个通用的表达，叫 visual word。
图片直方图表示：

上一步训练得到的字典，是为了这一步对图像特征进行量化。对于一幅图像而言，我们可以提取出大量的SIFT特征点，但这些特征点仍然属于一种浅层（low level）的表达，缺乏代表性。因此，这一步的目标，是根据字典重新提取图像的高层特征。

具体做法是，对于图像中的每一个SIFT特征，都可以在字典中找到一个最相似的 visual word，这样，我们可以统计一个 k 维的直方图，代表该图像的SIFT特征在字典中的相似度频率。

例如：对于上图这辆车的图片，我们匹配图片的「SIFT」向量与字典中的 visual word，统计出最相似的向量出现的次数，最后得到这幅图片的直方图向量。

训练分类器：

当我们得到每幅图片的直方图向量后，剩下的这一步跟以往的步骤是一样的。无非是根据数据库图片的向量以及图片的标签，训练分类器模型。然后对需要预测的图片，我们仍然按照上述方法，提取SIFT特征，再根据字典量化直方图向量，用分类器模型对直方图向量进行分类。当然，也可以直接根据 KNN 算法对直方图向量做相似性判断。

二、实验结果

我选取了100张左右的图片作为我的数据集，并对其进行sift特征提取。如下图所示。
在这里插入图片描述
提取文件夹下图像的sift特征，生成词汇。

创建索引，遍历所有的图像，并将它们的特征投影到词汇上，提交到数据库。

利用建立起来的索引找到包含特定单词的所有图像。

三、小结

结果输出的图片匹配较大的5张图片，regular的五张图片为普通查询的结果，即利用欧氏距离，homography的五张图片为RANSEC模型排序查询的结果，可以看到两张方法查询得出的图片是一致的，但第二张方法输出的图片图像特征较为相同的排在前面。
第一组只是进行了简单的索引和查询，而第二组用单应性进行拟合建立RANSAC模型，再使用候选图像的特征进行排序查询，结果较为准确。
图像特征比较明显的图像，匹配效果更为理想。
对于字典的规模，字典过大，单词缺乏一般性，对噪声敏感，计算量大，关键是图象投影后的维数高；字典太小。单词区分性能差，对类似的目标特征无法表示。
遇到的错误：TypeError: ‘cmp’ is an invalid keyword argument for sort()。

python3中修改了cmp的参数，将imagesearch.py中的tmp.sort(cmp=lambda x,y:cmp(x[1],y[1]))替换tmp.sort(key=cmp_to_key(lambda x,y:operator.gt(x[1],y[1])))
，同时加上from functools import cmp_to_key。

四、代码

import pickle
from PCV.imagesearch import vocabulary
from PCV.tools.imtools import get_imlist
from PCV.localdescriptors import sift

#获取图像列表
imlist = get_imlist('C:/Users/Desktop/pi1/')
nbr_images = len(imlist)
#获取特征列表
featlist = [imlist[i][:-3]+<