VQA指的是,给定一张图片和一个与该图片相关的自然语言问题,计算机能产生一个正确的回答。 显然,这是一个典型的多模态问题,融合了CV与NLP的技术,计算机需要同时学会理解图像和文字
文本QA即纯文本的回答,计算机根据文本形式的材料回答问题。与之相比,VQA把材料换成了图片形式,从而引入了一系列新的问题:
- 图像是更高维度的数据,比纯文本具有更多的噪声。
- 文本是结构化的,也具备一定的语法规则,而图像则不然。
- 文本本身即是对真实世界的高度抽象,而图像的抽象程度较低,可以展现更丰富的信息,同时也更难被计算机“理解”。
与Image Captioning这种看图说话的任务相比,VQA的难度也显得更大。
- 因为Image Captioning更像是把图像“翻译”成文本,只需把图像内容映射成文本再加以结构化整理即可,而VQA需要更好地理解图像内容并进行一定的 推理,有时甚至还需要借助 外部的知识库。
- VQA的评估方法更为简单,因为答案往往是客观并简短的,很容易与ground truth对比判断是否准确,不像Image Captioning需要对长句子做评估。
吴琦等人把这些方法分为四大类
分别是Joint embedding approaches、Attention mechanisms、Compositional Models和Models using external knowledge base 。
VQA相关方法的简单综述https://zhuanlan.zhihu.com/p/59530688