VQA相关概念简单整理

VQA指的是,给定一张图片和一个与该图片相关的自然语言问题,计算机能产生一个正确的回答。 显然,这是一个典型的多模态问题,融合了CV与NLP的技术,计算机需要同时学会理解图像和文字

文本QA即纯文本的回答,计算机根据文本形式的材料回答问题。与之相比,VQA把材料换成了图片形式,从而引入了一系列新的问题:

  1. 图像是更高维度的数据,比纯文本具有更多的噪声。
  2. 文本是结构化的,也具备一定的语法规则,而图像则不然。
  3. 文本本身即是对真实世界的高度抽象,而图像的抽象程度较低,可以展现更丰富的信息,同时也更难被计算机“理解”。

与Image Captioning这种看图说话的任务相比,VQA的难度也显得更大。

  1. 因为Image Captioning更像是把图像“翻译”成文本,只需把图像内容映射成文本再加以结构化整理即可,而VQA需要更好地理解图像内容并进行一定的 推理,有时甚至还需要借助 外部的知识库。
  2. VQA的评估方法更为简单,因为答案往往是客观并简短的,很容易与ground truth对比判断是否准确,不像Image Captioning需要对长句子做评估。

 

吴琦等人把这些方法分为四大类

分别是Joint embedding approaches、Attention mechanisms、Compositional Models和Models using external knowledge base 。

VQA相关方法的简单综述icon-default.png?t=LA23https://zhuanlan.zhihu.com/p/59530688

  • 1
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值