pytorch
文章平均质量分 79
呆呆_kk
这个作者很懒,什么都没留下…
展开
-
用于多模态注意力学习的超图注意力网络(2020 CVPR)
重新强调了存在的问题来自不同模态的特征向量被视为了同一个level上的上的抽象信息,即使这些特征向量是从不同的预处理步骤中获得的。如何对齐异构模态的信息?为了解决这个问题,本文建议使用符号图作为多模态学习的常见语义表示。我们将符号图定义为包含节点和边的有向图,节点表示具有文本形式的语义单元,边表示它们之间的关系。例如,场景图可以用作图像模态的符号图,也可以用作文本模态的自然句子中的依存树。通过从每个低层输入中提取符号图,我们可以比较同一抽象层中模态之间的语义。定性分析后的发现。...原创 2022-07-27 16:34:25 · 2634 阅读 · 2 评论 -
SA-VQA: Structured Alignment of Visual and Semantic Representations for Visual Question Answering
以前的方法广泛使用实体级别的对齐,例如视觉区域与其语义标签之间的关联,或者问题词和对象特征之间的交互。这些尝试旨在改善跨模态表征,而忽略其内部关系。相反,本文应用结构化对齐,将视觉和文本内容用图来表示,旨在捕捉视觉和文本模式之间的深层联系。为结构化对齐而进行表示和集成graph是非常重要的。本文首先首先将不同模态实体转换为序列节点和邻接图,然后将其合并用于结构化对齐来解决这个问题。实验结果表明,这种结构化对齐提高了推理性能。此外,我们的模型对每个生成的答案都具有更好的解释性。挑战:如何对齐结构化场景图、视觉原创 2022-07-15 00:37:02 · 321 阅读 · 2 评论 -
Multi-Granularity Alignment for Visual Question Answering(视觉问答的多粒度对齐)
找到不同模态之间以及每个模态内的组件连接以获得更好的注意力权重是至关重要的。本文重点关注如何构建输入分层和嵌入结构信息,来改善不同层次组件之间的对齐。本文提出了视觉问答任务的多粒度对齐架构(MGA-VQA),该架构通过多粒度对齐来学习模态内和模态间的相关性,并通过决策融合模块输出最终结果。整个细粒度图像特征和整个自然语言句子的直接融合非常复杂,缺乏可解释性。本文重点研究再没有额外数据的情况下更有效的学习多模态的对齐,为了实现粒度级对齐,通过引入lead graph的概念将图结构信息嵌入到我们的模型中。模型的原创 2022-07-13 16:57:37 · 626 阅读 · 0 评论 -
VQA_v2数据集预处理
数据集文件介绍VQA官网上提供了数据集文件:VQA_v2数据集imagetrain:82783val:40504test:81434questiontrain:443757val:214354test:447793answertrain:4437570val:2143540大致理解一下根据官网的question文件,可以先理解一下文件里包含的内容:{"info" : info,"task_type" : str,"data_type": str,原创 2022-03-30 19:10:40 · 6698 阅读 · 17 评论 -
Pytorch报错|UserWarning: The given NumPy array is not writeable, and PyTorch does not support non-writ
完整错误如下:/data/home//.conda/envs/cmr/lib/python3.7/site-packages/torch/utils/data/_utils/collate.py:63: UserWarning: The given NumPy array is not writeable, and PyTorch does not support non-writeable tensors. This means you can write to the underlying (su原创 2022-03-27 16:12:41 · 10009 阅读 · 1 评论