计算机视觉-图像检索

本文深入探讨计算机视觉领域的图像分类,解释了图像分类的概念、Bag-of-features算法及其流程,以及TF-IDF在图像分类中的应用。文章通过详细步骤介绍了如何实现图像分类,包括创建词汇、建立数据库和搜索图像。同时,讨论了当前图像分类面临的挑战,如类内差异、类间差异和语义鸿沟问题。
摘要由CSDN通过智能技术生成

目录

一、原理解析

1.1计算机视觉领域的图像分类是什么意思?

1.2图像分类要如何实现?

1.3Bag-of-features算法和过程?

1.4TF-IDF?

1.5当前图像分类中会遇到一些值得挑战的问题

二、代码解析

2.1创建词汇

2.2 建立数据库

2.3在数据库中搜索图像


一.原理解析

1.1计算机视觉领域的图像分类是什么意思?

图像分类,即通过图像内容的不同将图像划分为不同的类别,该技术二十世纪九十年代末提出,并命名为基于图像内容的图像分类(Content- Based ImageClassific- ation, CEIC)算法概念,基于内容的图像分类技术不需要对图像的语义信息进行人工标注,而是通过计算机提取图像中所包含的特征,并对特征进行处理和分析,得出分类结果。
 
常用的图像特征有 图像颜色、纹理、灰度等信息。而图像分类过程中,提取的特征要求不容易受随机因素干扰,特征的有效提取可提高图像分类的精度。特征提取完成后,选择合适的算法创建图像类型与视觉特征之间的关联度,对图像进行类别划分。
 
图像分类领域中,根据图像分类要求,一般可以分为 场景分类和 目标分类两类问题。场景分类也可以称为事件分类,场景分类是对 整幅图像所代表的 整体信息进行分类,或者是对图像中所发生事件的总体描述。目标分类(又称为物体分类)是对图像中 出现的目标 (物体)进行识别或分类。

1.2图像分类要如何实现?

视觉词袋模型( Bag-of-features )是当前计算机视觉领域中较为常用的图像表示方法。
视觉词袋模型来源于词袋模型(Bag-of-words),词袋模型最初被用在文本分类中,将文档表示成特征矢量。它的基本思想是假定 对于一个文本,忽略其词序和语法、句法, 仅仅将其看做是一些词汇的集合, 而文本中的每个词汇都是独立的。简单说就是讲每篇文档都看成一个袋子 (因为里面装的都是词汇,
所以称为词袋,Bag of words即因此而来)然后看这个袋子里装的都是些什么词汇,将其分类。
如果文档中猪、 马、牛、羊、山谷、土地、拖拉机这样的词汇多些,而银行、大厦、汽车、公园这样的词汇少些, 我们就倾向于判断它是一 篇描绘乡村的文档,而不是描述城镇的。
Bag of Feature也是借鉴了这种思路,只不过在图像中,我们抽出的不再是一个个word, 而是 图像的关键特征Feature,所以研究人员将它更名为Bag of Feature.Bag of Feature在检索中的算法流程和分类几乎完全一样,唯一的区别在于,对于原始的BOF特征,也就是直方图向量,我们引入TF_IDF权值。


1.3Bag-of-features算法和过程?

算法过程:
1)提取图像特征
2)对特征进行聚类,得到一部视觉字典( visual vocabulary )
3)根据字典将图片表示成向量(直方图)
4)把输入图片转化成视觉单词的频率直方图
 
1)提取图像特征
特征提取及描述主要是将一些 具有代表性且 区分性较强的 全局或局部特征从图像中进行抽取,并对这些特征进行描述。
这些特征一般是类别之间差距比较 明显的特征,可以将其与其他类别区分开,其次,这些特征还要求具有 较好的稳定性,能够最大限度的在光照、视角、尺度、噪声以及各种外在因素变化的情况下保持稳定,不受其影响。这样即使在非常复杂的情况下,计算机也能通过这些稳定的特征很好的检测与识别出这个物体。
特征提取最简单且有效的方法就是 规则网格方法,
该方法采用均匀网格对图像进行划分,从而得到图像的局部区域特征。
兴趣点检测方法是另一个有效的特征提取方法,兴趣点检测的基本思想是:
在人为判断一幅图像的类别时,首先捕捉到物体的整体轮廓特征,然后聚焦于物体与其他物体具有显著特征区别的地方,最后判断出图像的类别。即通过该物体与其他物体 区别开的 显著特征,进而判断图像的类别。
在提取完图像的特征后,下一步就要应用特征描述子来对抽取的图像特征进行描述,特征描述子所表示的特征向量一般在处理算法时会作为输入数据,因此,如果描述子具有一定的判别性及可区分性,则该描述子会在后期的图像处理过程中起着很大的作用。
其中,SIFT描述子是近年比较经典且被广泛应用的一种描述子。
SIFT会从图片上提取出很多特征点,每个特征点都是128维的向量,因此,如果图片足够多的话,我们会提取出一个巨大的特征向量库。

2)训练字典( visual vocabulary )
 在上面提取完SIFT特征的步骤后,利用K-means聚类算法将提取的SIFT特征聚类生成视觉词典。
K-means算法是度量样本间相似性的一种方法,该算法设置参数为K,把N个对象分成K个簇,簇内之间的相似度较高,而簇间的相似度较低。聚类中心有K个,视觉词典为K。构建视觉单词的过程如图所示。

提取完特征后,我们会采用一些 聚类算法对这些特征向量进行聚类。 最常用的聚类算法是k-means。
至于k-means中的k如何取,要根据具体情况来确定。另外,由于特征的数量可能非常庞大,这个聚类的过程也会非常漫长。聚类完成后,我们就得到了这k个向量组成的字曲,这k个向量有一个通 用的表达,叫visual word.
 

3)图片直方图表示
利用视觉词典中的词汇表示待分类图像。计算每幅图像中的SIFT特征到这K个视觉单词的距离,
其中 距离最近的视觉单词为该SIFT特征对应的视觉单词。
通过统计每个单词在图像中出现的次数,将图像表示成一个K维数值向量,
如图所示,其中K=4,每幅图像用直方图进行描述。

 

4)训练分类器
当我们得到每幅图片的直方图向量后,剩下的这一步跟以往的步骤是一样的。
无非是数据库图片的向量以及图片的标签,训练分类器模型。然后对需要预测的图片,我们仍然按照上述方法࿰

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值