KAT: A Knowledge Augmented Transformer for Vision-and-Language——论文

Abstract

1. 需要解决的问题:

how the reasoning processes over implicit and explicit knowledge should be integrated(推理过程应该如何结合显式和隐式的知识?)

2. 解决方法:

a - Knowledge Augmented Transformer (KAT)(同时结合了显式和隐式知识,其中显式知识的结合提高了模型的可解释性)

1 Introduction

1. 应用场合:

许多自动化引擎需要模型seamlessly integrate implicit (i.e. , commonsense) and explicit knowledge ( e.g. , Wikidata)——显式知识即维基百科知识,隐式知识即常识性知识
2. 比较符合的数据集:
OK-VQA

3. 核心问题:

A key challenge here is to accurately link image content to abstract external knowledge(准确地链接图像内容到抽象的外部知识)
4. 现有方法以及不足:
(1)第一类:
first retrieve external knowledge from external knowledge resources(首先从外部知识源中检索外部知识);

不足:

① First, explicit knowledge retrieved using keywords from questions or image tags may be too generic, which leads noise or irrelevant knowledge during knowledge reasoning(使用来自于问题和图像中的关键词来检索外部知识可能过于通用,导致产生了大量噪声或者不相关的知识,影响了知识推理过程)

② existing work mainly focuses on explicit knowledge(现有工作主要集中于外部知识)

5. 主要贡献:
(1)Knowledge extraction(知识提取):① for implicit knowledge, we design new prompts to extract both tentative answers and supporting evidence from a frozen GPT-3 model(对于隐式知识,设计了新的prompt,从参数冻结的GPT-3模型中提取试探性的答案以及支撑证据);② design a contrastive learning-based explicit knowledge retriever using the CLIP model(对于显式知识,设计基于对比学习的显式知识检索器,即CLIP,希望所有检索到的知识都是以视觉对齐的目标为中心)
(2)Reasoning in an encoder-decoder transformer(编解码推理):
(3) OK-VQA performance

2 Related Work

Vision-Language Transformer

第一类:single-stream architecture
第二类:two-stream architecture
第三类:CLIP

Knowledge-based VQA

1. 数据集:
FVQA:a fact-based VQA dataset(构建了一个基于事实的VQA数据集,固定知识库,例如<Cat, CapableOf, ClimbingTrees>,里面的知识均是采用三元组形式呈现)
Outside
Knowledge VQA (OK-VQA) dataset(这个数据集更具有挑战性)
2. 方法:
(1)将外部知识转化为structured knowledge graphs(结构化的知识图谱);
(2)将外部知识转化为unstructured knowledge bases(无结构的知识库);
(3)将外部知识转化为neural-symbolic inference based knowledge(神经符号推理)。

Open-Domain Question Answering (ODQA)

3 Method

3.1 Overview

3.2 Explicit Knowledge Retrieval

3.2.1 Explicit Knowledge Extraction

传统方法:图像:目标检测器去提取特征,image tags can be generic and have a limited vocabulary size, leading noise or irrelevant knowledge(图像提示是通用的,有有限的单词数量,导致带噪声的或者不相关的知识产生);

本文方法:contrastive-learning based model to associate image regions with external knowledge bases(对比学习,将图像区域和外部知识联系在一起),有八类知识类型,每一个都是实体+对应文本描述

3.2.2 Knowledge Base Construction

知识源:维基百科

3.3 Implicit Knowledge Retrieval

leverage GPT-3 as an implicit language knowledge base and treat VQA as an open-ended text generation task(利用GPT-3作为隐式知识库,并且将VQA任务视为文本生成任务)

3.4 KAT Model

Encoder:
Reasoning Module:
Decoder:

4 Experiment

4.1 Dataset

OK-VQA:包含14 , 031 images和14 , 055 questions covering a variety of knowledge categories(包含各种知识类型)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值