**本文内容仅代表个人理解,如有错误,欢迎指正**
1. Problem
本篇论文主要解决的问题:将query编码成一个holistic sentence embedding,忽略了每个词对于Visual grounding框选的重要性,从而降低了模型的performance。
之前的方法(一阶段或两阶段)大多都将Language query编码成一个holistic sentence embedding,这种情况下,所生成的embedding可能会对query中的word没有那么敏感/没有强调每个词的重要性。(而且,之前的一些pre-trained language model在训练时,如果是生成sentence-level的embedding,更多的会去关注名词、动词等的语义特征,冠词、介词等的语义特征可能会被忽略,而在Visual grounding task中,冠词、介词等也有可能是决定框选目标的critical word.) 如图一(a),在将句子"Cat sitting under the chair"中的"under"替换成"on"时,对embedding的影响并不是太大,所以在利用这个embedding进行框选时,可能会产生偏差。
图一
2. Points
1. 提取q