**本文内容仅代表个人理解,如有错误,欢迎指正**
1. Problem & Background Information
1.1 Problem
- 目前,人们基本上都采用基于深度学习的方法来解决Visual grounding任务。不论是全监督学习还是弱监督学习,都十分依赖人为标注的数据集,而人工标注不仅昂贵,还十分费时。因此,本篇论文的目标是减少模型对于人工标注数据的依赖。
1.2 Background Information
- 简单阐述Visual grounding任务背景下的全监督学习与弱监督学习。
- 全监督学习如图一(a)所示,给定Image、Query以及Image中相对应的Bounding box进行训练。
- 弱监督学习如图一(b)所示,仅给定Image、Query进行学习,没有给出图像中相对应的位置。
图一
2. Point
- 个人觉得本篇论文最大的亮点就是其通过无监督的方法构建有监督的学习,但无监督的方法所提供的信息/标签到底可不可靠,另说。主要思想如图二所示,在训练的时候,给定一张没有label的Image,通过Pre-trained detector得到object proposals;通过Pseudo-Query Generation Modul