计算机视觉 — 图像检索

一、Bag of Feature
  1. 简介

    Bag of Features模型仿照文本检索领域的Bag of Words方法,把每幅图像描写叙述为一个局部区域/关键点(Patches/Key Points)特征的无序集合。使用某种聚类算法(如K-means)将局部特征进行聚类。每一个聚类中心被看作是词典中的一个视觉词汇(Visual Word)。相当于文本检索中的词。视觉词汇由聚类中心相应特征形成的码字(code word)来表示(可看当为一种特征量化过程)。全部视觉词汇形成一个视觉词典(Visual Vocabulary),相应一个码书(code book),即码字的集合,词典中所含词的个数反映了词典的大小。图像中的每一个特征都将被映射到视觉词典的某个词上,这样的映射能够通过计算特征间的距离去实现,然后统计每一个视觉词的出现与否或次数。图像可描写叙述为一个维数相同的直方图向量,即Bag of Features。

  2. 算法流程

    (1) 构造不小于 100张图片的数据集

    (2) 针对数据集,做SIFT特 征提取

    (3) 根据SIFT特征提取结果,采用k-means算法学习“视觉词典.(visual vocabulary)”,其中维度至少满足4个量级(比如10, 50, 100, 1000, 5000 )

    (4) 根据IDF原理,计算每个视觉单词的权

    (5) 针对数据库中每张图片的特征集,根据视觉词典进行量化以及TF-IDF解算。每张图片转化成特征向量

    (6) 对于输入的检索图像(非数据库中图片),计算SIFT特征,.并根据TF-IDF转化成频率直方图/特征向量

    (7) 构造检索图像特征到数据库图像的倒排表,快速索引相关候选匹配图像集

    (8) 针对候选匹配图像集与检索图像进行直方图/特征匹配

  3. 算法
    Bag of Feature的本质是提出一种图像的特征表示方法。

    按照Bag of Feature算法的思想,首先我们要找到图像中的关键词,而且这些关键词必须具备较高的区分度。实际过程中,通常会采用SIFT特征。

    有了特征之后,我们会将这些特征通过聚类算法得出很多聚类中心。这些聚类中心通常具有较高的代表性,比如,对于人脸来说,虽然不同人的眼睛、鼻子等特征都不尽相同,但它们往往具有共性,而这些聚类中心就代表了这类共性。我们将这些聚类中心组合在一起,形成一部字典(CodeBook)。

    对于图像中的每个SIFT特征,我们能够在字典中找到最相似的聚类中心,统计这些聚类中心出现的次数,可以得到一个向量表示(有些文章称之为直方图),如本文开篇的图片所示。这些向量就是所谓的Bag。这样,对于不同类别的图片,这个向量应该具有较大的区分度,基于此,我们可以训练出一些分类模型(SVM等),并用其对图片进行分类。

    提取图像特征:

    特征必须具有较高的区分度,而且要满足旋转不变性以及尺寸不变性等,因此,我们通常都会采用SIFT特征。SIFT算法是提取图像中局部不变特征的应用最广泛的算法,因此我们可以用SIFT算法从图像中提取不变特征点,作为视觉词汇,并构造单词表,用单词表中的单词表示一幅图像。SIFT会从图片上提取出很多特征点,每个特征点都是 128 维的向量,因此,如果图片足够多的话,我们会提取出一个巨大的特征向量库。

    训练字典( visual vocabulary ):

    提取完特征后,我们会采用一些聚类算法对这些特征向量进行聚类。最常用的聚类算法是 k-means。至于 k-means 中的 k 如何取,要根据具体情况来确定。另外,由于特征的数量可能非常庞大,这个聚类的过程也会非常漫长。聚类完成后,我们就得到了这 k 个向量组成的字典,这 k 个向量有一个通用的表达,叫 visual word。在这里插入图片描述
    图片直方图表示:

    上一步训练得到的字典,是为了这一步对图像特征进行量化。对于一幅图像而言,我们可以提取出大量的SIFT特征点,但这些特征点仍然属于一种浅层(low level)的表达,缺乏代表性。因此,这一步的目标,是根据字典重新提取图像的高层特征。

    具体做法是,对于图像中的每一个SIFT特征,都可以在字典中找到一个最相似的 visual word,这样,我们可以统计一个 k 维的直方图,代表该图像的SIFT特征在字典中的相似度频率。


    例如:对于上图这辆车的图片,我们匹配图片的「SIFT」向量与字典中的 visual word,统计出最相似的向量出现的次数,最后得到这幅图片的直方图向量。

    训练分类器:

    当我们得到每幅图片的直方图向量后,剩下的这一步跟以往的步骤是一样的。无非是根据数据库图片的向量以及图片的标签,训练分类器模型。然后对需要预测的图片,我们仍然按照上述方法,提取SIFT特征,再根据字典量化直方图向量,用分类器模型对直方图向量进行分类。当然,也可以直接根据 KNN 算法对直方图向量做相似性判断。

二、实验结果

我选取了100张左右的图片作为我的数据集,并对其进行sift特征提取。如下图所示。
在这里插入图片描述
提取文件夹下图像的sift特征,生成词汇。
在这里插入图片描述
创建索引,遍历所有的图像,并将它们的特征投影到词汇上,提交到数据库。
在这里插入图片描述
利用建立起来的索引找到包含特定单词的所有图像。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、小结
  1. 结果输出的图片匹配较大的5张图片,regular的五张图片为普通查询的结果,即利用欧氏距离,homography的五张图片为RANSEC模型排序查询的结果,可以看到两张方法查询得出的图片是一致的,但第二张方法输出的图片图像特征较为相同的排在前面。

  2. 第一组只是进行了简单的索引和查询,而第二组用单应性进行拟合建立RANSAC模型,再使用候选图像的特征进行排序查询,结果较为准确。

  3. 图像特征比较明显的图像,匹配效果更为理想。

  4. 对于字典的规模,字典过大,单词缺乏一般性,对噪声敏感,计算量大,关键是图象投影后的维数高;字典太小。单词区分性能差,对类似的目标特征无法表示。

  5. 遇到的错误:TypeError: ‘cmp’ is an invalid keyword argument for sort()。

    python3中修改了cmp的参数,将imagesearch.py中的tmp.sort(cmp=lambda x,y:cmp(x[1],y[1]))替换tmp.sort(key=cmp_to_key(lambda x,y:operator.gt(x[1],y[1])))
    ,同时加上from functools import cmp_to_key。

四、代码
import pickle
from PCV.imagesearch import vocabulary
from PCV.tools.imtools import get_imlist
from PCV.localdescriptors import sift

#获取图像列表
imlist = get_imlist('C:/Users/Desktop/pi1/')
nbr_images = len(imlist)
#获取特征列表
featlist = [imlist[i][:-3]+<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值