多标记数据集Corel5K和GIST特征

一、Corel5K

Corel5k图像库通常被分成三个部分:4000张图像作为训练集,500张图像作为验证集用来估计模型参数,其余500张作为测试集评价算法性能。使用验证集寻找到最优模型参数后4000张训练集和500张验证集混合起来组成新的训练集。该图像库中的每张图片被标注1~5个标注词,训练集中总共有374个标注词,在测试集中总共使用了263个标注词。
其中有两个表:
在这里插入图片描述
即corel5k_test_list.txt测试集和corel5k_train_list.txt训练集,用sublime打开corel5k_test_list.txt,里面有编号如1000/1024,1000代表1000的文件夹,1024代表1024.jpeg图片。
在这里插入图片描述
百度知道的好心人给出的答案,感谢解答大佬也感谢提问者
但是很奇怪,我下载下来的数据集里面,训练集确实是4500张(包括了验证集),可是为什么测试集只有499张,不够500张。
而说好的标注词有263个,显示的只有260个
在这里插入图片描述
训练集多出来的那些标注词是直接不给的对吗?

二、 GIST

GIST是一种图像全局信息特征,能够对场景进行识别与分类。
计算方法如下:

  1. 首先在4个尺度和8个方向上设置Gabor滤波器,并对图像做滤波,得到32个滤波后图像。

  2. 对滤波后图像分成4*4个区域,计算每个区域内像素均值。

  3. 得到484*4=512个区域均值组成的特征向量,即为Gist512特征。

local feature和global feature的理解

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
深圳电信培训中心的徐海蛟博士教学用的真正的Corel-5K图像数据集。5000张图片,标注词,训练数据,测试数据。特征提取说明。吐血奉献! 这是真正的Corel-5K图像集,共包含科雷尔(Corel)公司收集整理的5000幅图片,故名:Corel-5K,童鞋们可用于科学图像实验:分类、检索等。Corel-5k数据集是图像实验的事实标准数据集Corel图像库是科雷尔(Corel)公司收集整理的较为丰富的图像库涵盖多个主题。Corel图像库由若干个CD组成,每个CD包含100张大小相等的图像,可以转换成多种格式。每张CD代表一个语义主题,例如有公共汽车、恐龙、海滩等。 Corel-5k自从被提出用于图像标注实验后,已经成为图像实验的标准数据集,被广泛应用于标注算法性能的比较。Corel5k由50张CD组成,包含50个语义主题。 Corel-5k图像库通常被分成三个部分: 4000张图像作为训练集,500张图像作为验证集用来估计模型参数,其余500张作为测试集评价算法性能。使用验证集寻找到最优模型参数后4000张训练集和500张验证集混合起来组成新的训练集。 该图像库中的每张图片被标注1~5个标注词,训练集中总共有374个标注词,在测试集中总共使用了263个标注词。 童鞋们自己去提取相关低层视觉特征:Rgb Lab Hsv Sift Gist HOG等等。 童鞋们完成 svm knn adaboost 逻辑回归 随机森林 mimlsvm mimlknn mimlboost 自定义算法 等等多类与多标签实验吧。Go, ...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值