Learning Semantic Concepts and Order for Image and Sentence Matching笔记

SCO模型阅读笔记

论文:Learning Semantic Concepts and Order for Image and Sentence Matching
发表会议:CVPR2018
作者:在这里插入图片描述

一、为什么看?

好多关于图像-文本检索的文章,但是大多数都忽略了图像的语义顺序,当语义顺序被忽略时,会造成检索不准确,图像和文本的语义完全相反。
看点图像的语义顺序如何构建
应用于跨模态图像-文本检索

二、论文思路

图像语义之间存在差距,特别是像素级图像缺乏语义信息。本文提出语义增强图像和句子匹配模型,来通过学习语义概念和用一个正确的顺序语义顺序提高图像表示。
在这里插入图片描述

给定一张图像,用多区域多标签CNN预测语义概念,包括对象、属性、动作;
由于区域没有顺序,如何给这些语义概念排序,将全局上下文和语义概念融合;
对应的句子用LSTM生成,并且对融合后的句子进行监督,对比相似度。
在这里插入图片描述

疑问?

为什么要提取语义概念?
语义概念是图像与句子匹配的基本内容,像素级无法完成;

为什么不直接用图像描述?
图像描述和匹配是有区别的,图像匹配重点实在细粒度上找最相似的。图像描述体现在语义上,它不一定能够捕获到图像的细节。

为什么不从语义概念上直接学习语义顺序?
不同的顺序就有不同的意义,语义上有意义但可能是错误的顺序。

三、具体工作

句子表示学习:
一个完整的句子包括名词、动词和形容词,分别对应语义概念中的对象、动作和属性。对于一个句子,语义相关词的概念本质上表现为句子的顺序性。
采用传统的LSTM来捕获语义相关的词和构建语义顺序。
在这里插入图片描述

图像的语义概念提取:
目前存在的数据集中,只有图像和匹配的句子。数据集不能提供对象、属性和动作的信息。所以必须用多区域 多标签的CNN进行预测。(被faster R-CNN取代) 预测语义概念等价于多标签分类问题。
在这里插入图片描述

只挑选句子中的名词、形容词、动词和数字,删除同一语义相关的词,忽略频率低的词。

图像语义顺序学习
使用图像全局上下文为参考和句子生成为监督。
图像全局上下文
将全局上下文和语义概念全部叠加在一起,不可取。因为语义概念和全局是的重要性是不相同的。
在这里插入图片描述
生成的句子为监督
在这里插入图片描述
损失函数:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值