去年刚刚接触跨模态检索,因为是首届去做这个方向的,所以没有任何师兄师姐可以指导,也没有相应的资源。
曾经因为数据集的问题头疼过一段时间,现在整理一下,做个记录。
整理时间:2021-12-19
1.Pascal Sentence:
1000张图片,20个类别,每张图片五个描述的句子。
官网:http://vision.cs.uiuc.edu/pascal-sentences/
2.Wikipedia:
官网:http://www.svcl.ucsd.edu/projects/crossmodal/
2866个图片文本对
a.原始数据:图片为jpg,文本为XML文件,共计1.4G。(官网提供,自行下载)
b.手工提取特征:128维SIFT图片特征,10维LDA文本特征。(官网提供,自行下载)
3.MIRFLICKR:
官网地址404。比较完整的数据集以及制作策略详见:https://blog.csdn.net/HackerTom/article/details/98477506。
4.Nuswide:
共计269,648张图片和相应文本;一般分为Nus-wide-10k(挑选十个类别,1w张图像文本对)、Nus-wide-21k两种。
官网:https://lms.comp.nus.edu.sg/wp-content/uploads/2019/research/nuswide/NUS-WIDE.html
a.原始数据:官网提供部分,图片部分无法下载,我从以下博客找到相应的rgb图像包,结合官网文件使用。可按照(https://blog.csdn.net/weixin_44012382/article/details/120729911)来制作相应数据集。
因为原始提供者在谷歌云发布,国内不方便下载,这里提供备份。
链接:https://pan.baidu.com/s/1Zktv9mOEaI2h29IKLoSh4w
提取码:f76a
b.手工特征:SIFT图片特征,LDA文本特征。(官网提供)
5.XMediaNet:
网站:http://59.108.48.34/tiki/XMediaNet/
说明:北大实验室的数据,应该是需要教职工申请,我没申请。
6.IAPR TC-12
暂时没有用到,待更新。
7.MS-COCO
暂时没有用到,待更新。