跨模态检索常用数据集

去年刚刚接触跨模态检索,因为是首届去做这个方向的,所以没有任何师兄师姐可以指导,也没有相应的资源。
曾经因为数据集的问题头疼过一段时间,现在整理一下,做个记录。
整理时间:2021-12-19


1.Pascal Sentence:

1000张图片,20个类别,每张图片五个描述的句子。

官网:http://vision.cs.uiuc.edu/pascal-sentences/

2.Wikipedia:

官网:http://www.svcl.ucsd.edu/projects/crossmodal/

2866个图片文本对

a.原始数据:图片为jpg,文本为XML文件,共计1.4G。(官网提供,自行下载)

b.手工提取特征:128维SIFT图片特征,10维LDA文本特征。(官网提供,自行下载)

3.MIRFLICKR:

官网地址404。比较完整的数据集以及制作策略详见:https://blog.csdn.net/HackerTom/article/details/98477506。

4.Nuswide:

共计269,648张图片和相应文本;一般分为Nus-wide-10k(挑选十个类别,1w张图像文本对)、Nus-wide-21k两种。

官网:https://lms.comp.nus.edu.sg/wp-content/uploads/2019/research/nuswide/NUS-WIDE.html

a.原始数据:官网提供部分,图片部分无法下载,我从以下博客找到相应的rgb图像包,结合官网文件使用。可按照(https://blog.csdn.net/weixin_44012382/article/details/120729911)来制作相应数据集。
因为原始提供者在谷歌云发布,国内不方便下载,这里提供备份。
​ 链接:https://pan.baidu.com/s/1Zktv9mOEaI2h29IKLoSh4w
​ 提取码:f76a

b.手工特征:SIFT图片特征,LDA文本特征。(官网提供)

5.XMediaNet

网站:http://59.108.48.34/tiki/XMediaNet/

说明:北大实验室的数据,应该是需要教职工申请,我没申请。

6.IAPR TC-12

暂时没有用到,待更新。

7.MS-COCO

暂时没有用到,待更新。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

爱挠静香的下巴

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值