计算机视觉实验六用BoW和SVM实现图像分类

最新推荐文章于 2024-02-07 13:22:10 发布

拔牙不打麻药

最新推荐文章于 2024-02-07 13:22:10 发布

阅读量1.9k

点赞数 2

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/weixin_43820665/article/details/111183500

版权

本文介绍了如何运用BoW（Bag-of-Words）和SVM（Support Vector Machine）对图像进行分类。首先，通过SIFT算法提取特征，接着利用K-Means进行聚类得到视觉词典。然后，计算图像与视觉词典的匹配，构建直方图特征。最后，使用SVM对测试集进行预测并评估准确性。

摘要由CSDN通过智能技术生成

数据集：Caltech101
运行环境：pycharm

实验原理

BoW算法：
Bag-of-words模型的第一步是利用SIFT算法，从每类图像中提取视觉词汇，将所有的视觉词汇集合在一起。
第二步是利用K-Means算法构造单词表。K-Means算法是一种基于样本间相似性度量的间接聚类方法，此算法以K为参数，把N个对象分为K个簇，以使簇内具有较高的相似度，而簇间相似度较低。SIFT提取的视觉词汇向量之间根据距离的远近，可以利用K-Means算法将词义相近的词汇合并。
第三步是利用单词表的中词汇表示图像。利用SIFT算法，可以从每幅图像中提取很多个特征点，这些特征点都可以用单词表中的单词近似代替，通过统计单词表中每个单词在图像中出现的次数，可以将图像表示成为一个K=4维数值向量。
SVM：
SVM学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面。即为分离超平面，对于线性可分的数据集来说，这样的超平面有无穷多个（即感知机），但是几何间隔最大的分离超平面却是唯一的。

实验过程

一、划分数据集

将数据集划分成训练集和测试集。也可以自己挑几个类进行手动划分，这样运行时间也短。

def  get_train_test_data(img_path):
    all_imgs_path = get_file(img_path)
    labels = []
    for file in all_imgs_path:
        list_name = file.split('/')
        class_label = list_name[2]
        labels.append(class_label)

    # Convet the class label to the number label
    clabel = np.unique(labels)
    nclass = len(clabel)
    for jj in range(nclass):
        idx_label = [i for i in range(len(labels)) if labels[i] == clabel[jj]]
        for kk in range(len(idx_label)):
            labels[idx_label[kk]] = jj + 1

    tr_idx = []
    ts_idx = []
    tr_num = 15
    clabel2 = np.unique(labels)
    for jj in range(len(clabel2)):
        idx_label = [i for i in range(len(labels)) if labels[i] == clabel2[jj]]
        num = len(idx_label)

        idx_rand = np.arange(num)
        np.random.shuffle(idx_rand)

        idx_label = np.array(idx_label)

        tr_idx.extend(idx_label[idx_rand[0:tr_num]])
        ts_idx.extend(idx_label[idx_rand[tr_num:]])

    all_imgs_path = np.array(all_imgs_path)
    labels = np.array(labels)

    X_train = all_imgs_path[tr_idx]
    Y_train = labels[tr_idx]

    X_test = all_imgs_path[ts_idx]
    Y_test = labels[ts_idx]

    return X_train, Y_train, X_test, Y_test

二、提取训练集的SIFT特征

求得列表中每一张图的SIFT特征，并将SIFT特征放入新列表中。

def  compute_local_feature(image_paths):
    # List where all the descriptors are stored
    des_list = []
    for image_path in image_paths:
        im = cv2.imread(image_path)
        if im is None:
            print("No such file {}\nCheck if the file exists".format(image_path))
            exit()
        gray = cv2.cvtColor(im, cv2.COLOR_BGR2GRAY)

        # compute the keypoint
        sift = cv2.xfeatures2d.SIFT_create()
        #kp = sift.detect(gray, None)
        # compute the sift descriptor
        #kp, des = sift.compute(gray, kp)

        kp, des = sift.detectAndCompute(gray, None)

        if des is not None:
            des_list.append((image_path, des))
        else:
            print(image_path)
            print('Foun

最低0.47元/天解锁文章

拔牙不打麻药

关注

2
点赞
踩
38

收藏

觉得还不错? 一键收藏
打赏
0
评论
计算机视觉实验六用BoW和SVM实现图像分类

数据集：Caltech101运行环境：pycharm实验原理BoW算法：Bag-of-words模型的第一步是利用SIFT算法，从每类图像中提取视觉词汇，将所有的视觉词汇集合在一起。第二步是利用K-Means算法构造单词表。K-Means算法是一种基于样本间相似性度量的间接聚类方法，此算法以K为参数，把N个对象分为K个簇，以使簇内具有较高的相似度，而簇间相似度较低。SIFT提取的视觉词汇向量之间根据距离的远近，可以利用K-Means算法将词义相近的词汇合并。第三步是利用单词表的中词汇表示图像。
复制链接

扫一扫