我们依次介绍V-CSS的的所有步骤,该步骤包括四个主要步骤:初始对象选择(IO_SEL),对象局部贡献计算,关键对象选择(CO_SEL) ,以及动态答案分配(DA_ASS)。
1. Initial Objects Selection (IO_SEL). 通常,对于任何特定的QA对,图像
中只有几个对象是相关的。 为了缩小关键对象的选择范围,首先构造一个较小的对象集
,并假定
中的所有对象对于回答这个问题可能都是重要的,由于缺少每个样本的关键对象的注释,因此遵循[39]来提取与质量保证高度相关的对象。 具体来说,首先使用spaCy POS标记器[19]将POS标签分配给QA中的每个单词,然后提取QA中的名词。 然后,计算对象类别的GloVe嵌入之间的余弦相似度,并将提取的名词,
和QA中所有对象之间的相似度分数记为
,我们选择
得分最高的
对象作为
。
2. Object Local Contributio