Word2Pix: Word to Pixel Cross Attention Transformer in Visual Grounding,2021

Word2Pix论文提出了词到像素注意力分支,解决将query编码为单一句子embedding忽视单词重要性的问题。通过预训练BERT获取词embedding,与视觉编码进行交叉注意力操作,提高视觉定位的准确性。实验结果显示,Word2Pix在一阶段模型中表现出色,尤其在捕捉query中单词变化的能力上超越了FAOA和ReSC模型。
摘要由CSDN通过智能技术生成

**本文内容仅代表个人理解,如有错误,欢迎指正**​​​​​​​

1. Problem

本篇论文主要解决的问题:将query编码成一个holistic sentence embedding,忽略了每个词对于Visual grounding框选的重要性,从而降低了模型的performance。

之前的方法(一阶段或两阶段)大多都将Language query编码成一个holistic sentence embedding,这种情况下,所生成的embedding可能会对query中的word没有那么敏感/没有强调每个词的重要性。(而且,之前的一些pre-trained language model在训练时,如果是生成sentence-level的embedding,更多的会去关注名词、动词等的语义特征,冠词、介词等的语义特征可能会被忽略,而在Visual grounding task中,冠词、介词等也有可能是决定框选目标的critical word.) 如图一(a),在将句子"Cat sitting under the chair"中的"under"替换成"on"时,对embedding的影响并不是太大,所以在利用这个embedding进行框选时,可能会产生偏差。

图一

2. Points

1. 提取q

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值