多模态数据集预处理方法

最新推荐文章于 2025-04-15 13:49:29 发布

hatake.18

最新推荐文章于 2025-04-15 13:49:29 发布

阅读量3k

点赞数 1

本文链接：https://blog.csdn.net/weixin_45570101/article/details/106739207

版权

看的文章专栏收录该内容

6 篇文章

订阅专栏

摘要

对文本是单个词语的一般采用词袋特征
图片可以采用多种灵活的处理方式
对文本是句子甚至是段落的则需要采用较为复杂的处理方式，参考文献[1-2]中对Wiki和Pascal Sentence数据集的处理方式

Wiki

在这里插入图片描述
参考文献
[1] Wang D, Gao X, Wang X, et al. Multimodal discriminative binary embedding for large-scale cross-modal retrieval[J]. IEEE Transactions on Image Processing, 2016, 25(10): 4540-4554.

在这里插入图片描述
参考文献
[2] Wei Y, Zhao Y, Lu C, et al. Cross-modal retrieval with CNN visual features: A new baseline[J]. IEEE transactions on cybernetics, 2016, 47(2): 449-460.

MIRFlickr

Pascal Sentence

在这里插入图片描述
参考文献
[2] Wei Y, Zhao Y, Lu C, et al. Cross-modal retrieval with CNN visual features: A new baseline[J]. IEEE transactions on cybernetics, 2016, 47(2): 449-460.