计算机视觉-图像检索

最新推荐文章于 2024-08-13 11:43:38 发布

weixin_46120403

最新推荐文章于 2024-08-13 11:43:38 发布

阅读量917

点赞数 2

文章标签：计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_46120403/article/details/125344647

版权

本文深入探讨计算机视觉领域的图像分类，解释了图像分类的概念、Bag-of-features算法及其流程，以及TF-IDF在图像分类中的应用。文章通过详细步骤介绍了如何实现图像分类，包括创建词汇、建立数据库和搜索图像。同时，讨论了当前图像分类面临的挑战，如类内差异、类间差异和语义鸿沟问题。

摘要由CSDN通过智能技术生成

一、原理解析

1.1计算机视觉领域的图像分类是什么意思?

1.2图像分类要如何实现?

1.3Bag-of-features算法和过程?

1.4TF-IDF?

1.5当前图像分类中会遇到一些值得挑战的问题

一.原理解析

1.1计算机视觉领域的图像分类是什么意思?

图像分类，即通过图像内容的不同将图像划分为不同的类别，该技术二十世纪九十年代末提出，并命名为基于图像内容的图像分类(Content- Based ImageClassific- ation, CEIC)算法概念，基于内容的图像分类技术不需要对图像的语义信息进行人工标注，而是通过计算机提取图像中所包含的特征，并对特征进行处理和分析，得出分类结果。

常用的图像特征有图像颜色、纹理、灰度等信息。而图像分类过程中，提取的特征要求不容易受随机因素干扰，特征的有效提取可提高图像分类的精度。特征提取完成后，选择合适的算法创建图像类型与视觉特征之间的关联度，对图像进行类别划分。

图像分类领域中，根据图像分类要求，一般可以分为场景分类和目标分类两类问题。场景分类也可以称为事件分类，场景分类是对整幅图像所代表的整体信息进行分类，或者是对图像中所发生事件的总体描述。目标分类(又称为物体分类)是对图像中出现的目标 (物体)进行识别或分类。

1.2图像分类要如何实现?

视觉词袋模型( Bag-of-features )是当前计算机视觉领域中较为常用的图像表示方法。
视觉词袋模型来源于词袋模型(Bag-of-words)，词袋模型最初被用在文本分类中，将文档表示成特征矢量。它的基本思想是假定对于一个文本，忽略其词序和语法、句法, 仅仅将其看做是一些词汇的集合, 而文本中的每个词汇都是独立的。简单说就是讲每篇文档都看成一个袋子 (因为里面装的都是词汇，
所以称为词袋，Bag of words即因此而来)然后看这个袋子里装的都是些什么词汇，将其分类。
如果文档中猪、马、牛、羊、山谷、土地、拖拉机这样的词汇多些，而银行、大厦、汽车、公园这样的词汇少些, 我们就倾向于判断它是一篇描绘乡村的文档，而不是描述城镇的。
Bag of Feature也是借鉴了这种思路，只不过在图像中，我们抽出的不再是一个个word, 而是图像的关键特征Feature,所以研究人员将它更名为Bag of Feature.Bag of Feature在检索中的算法流程和分类几乎完全一样,唯一的区别在于，对于原始的BOF特征，也就是直方图向量，我们引入TF_IDF权值。

1.3Bag-of-features算法和过程?

算法过程:
1)提取图像特征
2)对特征进行聚类，得到一部视觉字典( visual vocabulary )
3)根据字典将图片表示成向量(直方图)
4)把输入图片转化成视觉单词的频率直方图

1)提取图像特征
特征提取及描述主要是将一些具有代表性且区分性较强的全局或局部特征从图像中进行抽取，并对这些特征进行描述。
这些特征一般是类别之间差距比较明显的特征，可以将其与其他类别区分开，其次，这些特征还要求具有较好的稳定性，能够最大限度的在光照、视角、尺度、噪声以及各种外在因素变化的情况下保持稳定，不受其影响。这样即使在非常复杂的情况下，计算机也能通过这些稳定的特征很好的检测与识别出这个物体。
特征提取最简单且有效的方法就是规则网格方法，
该方法采用均匀网格对图像进行划分，从而得到图像的局部区域特征。
兴趣点检测方法是另一个有效的特征提取方法，兴趣点检测的基本思想是:
在人为判断一幅图像的类别时，首先捕捉到物体的整体轮廓特征，然后聚焦于物体与其他物体具有显著特征区别的地方，最后判断出图像的类别。即通过该物体与其他物体区别开的显著特征，进而判断图像的类别。
在提取完图像的特征后，下一步就要应用特征描述子来对抽取的图像特征进行描述，特征描述子所表示的特征向量一般在处理算法时会作为输入数据,因此，如果描述子具有一定的判别性及可区分性，则该描述子会在后期的图像处理过程中起着很大的作用。
其中，SIFT描述子是近年比较经典且被广泛应用的一种描述子。
SIFT会从图片上提取出很多特征点，每个特征点都是128维的向量，因此，如果图片足够多的话,我们会提取出一个巨大的特征向量库。

2)训练字典（ visual vocabulary ）
在上面提取完SIFT特征的步骤后,利用K-means聚类算法将提取的SIFT特征聚类生成视觉词典。
K-means算法是度量样本间相似性的一种方法，该算法设置参数为K，把N个对象分成K个簇，簇内之间的相似度较高，而簇间的相似度较低。聚类中心有K个，视觉词典为K。构建视觉单词的过程如图所示。

提取完特征后，我们会采用一些聚类算法对这些特征向量进行聚类。最常用的聚类算法是k-means。
至于k-means中的k如何取,要根据具体情况来确定。另外，由于特征的数量可能非常庞大，这个聚类的过程也会非常漫长。聚类完成后，我们就得到了这k个向量组成的字曲，这k个向量有一个通用的表达，叫visual word.

3)图片直方图表示
利用视觉词典中的词汇表示待分类图像。计算每幅图像中的SIFT特征到这K个视觉单词的距离，
其中距离最近的视觉单词为该SIFT特征对应的视觉单词。
通过统计每个单词在图像中出现的次数，将图像表示成一个K维数值向量，
如图所示，其中K=4，每幅图像用直方图进行描述。

4)训练分类器
当我们得到每幅图片的直方图向量后，剩下的这一步跟以往的步骤是一样的。
无非是数据库图片的向量以及图片的标签，训练分类器模型。然后对需要预测的图片，我们仍然按照上述方法࿰

最低0.47元/天解锁文章

weixin_46120403

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
3
评论
计算机视觉-图像检索

目录一、原理解析1.1计算机视觉领域的图像分类是什么意思?1.2图像分类要如何实现?1.3Bag-of-features算法和过程?1.4TF-IDF?1.5当前图像分类中会遇到一些值得挑战的问题二、代码解析2.1创建词汇2.2 建立数据库2.3在数据库中搜索图像图像分类，即通过图像内容的不同将图像划分为不同的类别，该技术二十世纪九十年代末提出，并命名为基于图像内容的图像分类(Content- Based ImageClassific- ation, CEIC)算法概念，基于内容的图像分类技术不需要对图像的
复制链接

扫一扫