BOW模型详解与应用-CSDN博客

本文链接：https://blog.csdn.net/xuzhongxiong/article/details/52689048

Bag of Word（BOW）模型是一种文本表示方法，常用于文本分类和图像识别。它忽略了词序和语法，将文档视为词汇的集合，通过统计词汇出现的频率来表征文档。在视觉领域，BOW模型结合SIFT特征进行图像分类，包括创建词汇词典、映射训练样本、训练分类器和识别新样本四个步骤。通常使用k-均值聚类创建词典，并采用SVM作为分类器。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Bag of word 模型简介

Bag of word模型最初被用在文本分类中，将文档表示成特征矢量。它的基本思想是假定对于一个文本，忽略其词序和语法、句法，仅仅将其看做是一些词汇的集合，而文本的每个词汇都是独立的。
简单说就是将每个文档看成一个袋子，然后看每个袋子里装的都是些什么词汇，将其分类。通过统计文档中各个此出现的次数判断该文档在描述什么。例如，一个中如果猪、牛、马、羊、山谷、土地、拖拉机这样的词汇多，而银行、大厦、汽车、公园这样的词汇少，就可以断定该文档描述的乡村的场景，而不是城镇。
BOW也可以应用在视觉领域的图像分类中，其基本思想就是将图像的特征看成一个特征集合，通过统计图像中特征出现的次数来对图像进行分类。这里以SIFT特征为例来理解如何利用BOW对图像进行分类。

BOW实现步骤：

1.创建词汇（特征）词典
2.得到训练数据到字典的映射
3.选择适当的分类器进行训练
4.对新来的样本，先映射到字典空间，然后利用得到的分类器进行分类

1.创建词汇（特征）词典

以SIFT 128维特征作为例子。例如现在有1000张训练图片，对每一张训练图片都提取SIFT的128维特征，那么最终可以得到N(i)*128的特征，N(i)代表第i张图特征点的个数，因为每张图像不一样，所以每张图像的SIFT 特征个数也不一样。提取特征后对1000张图像提取出的所有SIFT特征进行聚类（目的是