![](https://img-blog.csdnimg.cn/2019091813595558.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
VQA
文章平均质量分 93
VQA
Gao+Ling
爱学习
展开
-
VQA 2.0数据集的学习和使用过程
该文章记录本人第一次对VQA 2.0数据集进行研究的全过程。某博主的指点,帮了我不少。非常感激!VQA任务就是给定一张图片和一个问题,模型要根据给定的输入来进行回答。很明显,VQA任务的输入有两个(image和question),对于如何提取image的feature,这里就不在赘述, 可以使用CNN提取特征的方式,CNN可以选择Resnet、VGG等骨干网络(去除pooling和fc层)。对于如何提取question的特征,一般的做法是,由于question本身是文字,需要转换为对应的向量形式。原创 2023-03-31 13:06:24 · 4290 阅读 · 1 评论 -
CLIP论文拜读及理解
prompt learning :提示学习原创 2023-04-17 20:38:52 · 783 阅读 · 0 评论 -
论文阅读:chain of thought Prompting elicits reasoning in large language models
预训练大型语言模型(LLMs)被广泛应用于自然语言处理(NLP)的许多子领域,通常被称为具有特定任务示例的优秀少数镜头学习者。值得注意的是,最近的一种通过逐步回答示例来引出复杂的多步推理的技术——思维链(CoT)提示,在算术和符号推理方面取得了最先进的表现,这些困难的系统-2任务不遵循LLMs的标准比例定律。虽然这些成功通常归因于llm的少次学习能力,但我们通过在每个答案之前添加“让我们一步一步地思考”来证明llm是出色的zero-shot推理者。原创 2023-03-17 19:44:28 · 547 阅读 · 1 评论 -
基于感知动作循环的层次推理用于视觉问答
基于感知动作循环的分层推理框架( HIPA )来处理VQA任务。它将多模态的推理过程与感知动作循环PAC)相融合,解释了人类对周围世界的学习机制。它通过推理的三个阶段来理解视觉模态:对象层面的注意力、组织和解释。它通过词汇层面的注意力、解释和条件化来理解语言情态。随后,视觉和语言模式在整个框架中以循环和分层的方式相互依赖地解释。为了进一步评估视觉和语言特征,我们认为相同答案的图像-问题对最终应该具有相似的视觉和语言特征。因此,我们使用余弦相似度的标准差和曼哈顿距离等指标进行视觉和语言特征评估实验。原创 2023-02-16 20:45:26 · 528 阅读 · 0 评论 -
艺术VQA的数据集与基线baselines
艺术VQA的数据集与基线baselines原创 2022-09-17 20:38:04 · 487 阅读 · 0 评论 -
用于文化遗产的VQA(基于ArtPedia数据集)
用于文化遗产的VQA(基于VQA v2,OK-VQA,ArtPedia数据集)原创 2022-09-17 15:18:20 · 797 阅读 · 0 评论