跨模态检索常用数据集

爱挠静香的下巴

已于 2022-11-05 12:19:43 修改

阅读量2.8k

点赞数 7

分类专栏： # 跨模态检索文章标签：深度学习人工智能

于 2021-12-19 21:44:54 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzpl139/article/details/122030566

版权

跨模态检索专栏收录该内容

3 篇文章

订阅专栏

去年刚刚接触跨模态检索，因为是首届去做这个方向的，所以没有任何师兄师姐可以指导，也没有相应的资源。
曾经因为数据集的问题头疼过一段时间，现在整理一下，做个记录。
整理时间：2021-12-19

1.Pascal Sentence：

1000张图片，20个类别，每张图片五个描述的句子。

官网：http://vision.cs.uiuc.edu/pascal-sentences/

2.Wikipedia：

官网：http://www.svcl.ucsd.edu/projects/crossmodal/

2866个图片文本对

a.原始数据：图片为jpg，文本为XML文件，共计1.4G。（官网提供，自行下载）

b.手工提取特征：128维SIFT图片特征，10维LDA文本特征。（官网提供，自行下载）

3.MIRFLICKR：

官网地址404。比较完整的数据集以及制作策略详见：https://blog.csdn.net/HackerTom/article/details/98477506。

4.Nuswide：

共计269,648张图片和相应文本；一般分为Nus-wide-10k（挑选十个类别，1w张图像文本对）、Nus-wide-21k两种。

官网：https://lms.comp.nus.edu.sg/wp-content/uploads/2019/research/nuswide/NUS-WIDE.html

a.原始数据：官网提供部分，图片部分无法下载，我从以下博客找到相应的rgb图像包，结合官网文件使用。可按照（https://blog.csdn.net/weixin_44012382/article/details/120729911）来制作相应数据集。
因为原始提供者在谷歌云发布，国内不方便下载，这里提供备份。
链接：https://pan.baidu.com/s/1Zktv9mOEaI2h29IKLoSh4w
提取码：f76a

b.手工特征：SIFT图片特征，LDA文本特征。（官网提供）

5.XMediaNet：

网站:http://59.108.48.34/tiki/XMediaNet/

说明：北大实验室的数据，应该是需要教职工申请，我没申请。

6.IAPR TC-12

暂时没有用到，待更新。

7.MS-COCO

暂时没有用到，待更新。

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

爱挠静香的下巴 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。