Koihoo-CSDN博客

原创 trans【Total3DUnderstanding】论文翻译+解读学习 2020.10.14

Total3D摘要1 Introduction3 Method4 Result and Evaluation4.1 实验设置摘要室内场景的语义重建是指场景理解和物体重建。现有作品要么解决了这一问题的一部分，要么专注于独立的对象。在本文中，我们弥合了理解和重建之间的鸿沟，并提出了一种端到端解决方案，以共同重建房间布局，从单个图像中对象包围框和网格。代替分别解决场景理解和对象重建，我们的方法建立在整体场景上下文的基础上，并提出了一个由三个组成部分的从粗到细的层次结构：1.具有摄像机姿势的房间布局；

2021-11-30 10:31:55 1003

原创 SGGTrans【Neural Motifs：Scene Graph Parsing with Global Context】2018 cvpr_pytorch 20.12.10

Neural MotifsAbstract5. Experimental Setup5.1. Model Details5.2. Training5.3. Evaluation5.4. Frequency Baselines9. ConclusionSummaryAbstract我们研究产生视觉场景的结构化图形表示的问题。我们的工作分析了图案的作用：场景图中经常出现的子结构。我们在视觉基因组数据集中对此类重复结构提出了新的定量见解。我们的分析表明，对象标签对关系标签具有高度的预测能力，反之亦然。

2021-08-16 15:12:05 956 1

原创 trans《LEARNING TOCOUNTOBJECTS INNATURALIMAGESFORVISUALQUESTIONANSWERING》

摘要到目前为止，视觉问答（VQA）模型一直在努力计算自然图像中的对象。由于这些模型中的软性关注，我们确定了一个根本问题。为了解决这个问题，我们提出了一种神经网络组件，该组件允许从对象提议中进行可靠的计数。玩具任务上的实验证明了该组件的有效性，我们在VQA v2数据集的数字类别上获得了最新的准确性，而没有负面影响其他类别，甚至与我们的单一模型相比，集成模型的表现也不佳。在困难的平衡对度量标准下，与强基准相比，该组件显着提高了6.6％。3　PROBLEMS WITH SOFT ATTENTION这

2021-08-16 15:11:49 256

原创 SGG Trans[Attribution:Contextual Translation Embedding for SGG

Contextual Translation Embedding for VisualRelationship Detection and Scene GraphGeneration摘要2. related work3. model3.1 Union Visual Translation Embedding3.2 语言模块3.3 Implementation Details2020新，有属性预测。可学摘要实体之间的关系在图像理解中起着核心作用。由于建模（主语、谓语、宾语）关系三元组的复杂性，开发一

2021-08-16 15:11:31 401

原创 SGG Trans【Unbiased Scene Graph Generation from Biased Training】学习记录

这里写目录标题摘要1. Introduction三级目录摘要如今的场景图生成（SGG）任务仍然不切实际，这主要是由于严重的训练偏见，例如，各种人在海滩上行走/坐着/躺着折叠成海滩上的人类。然而，在SGG中进行去偏并不是微不足道的，因为传统的去偏方法无法区分好的和坏的偏见，例如，先于上下文的好习惯（例如，人读书而不是吃东西）和长尾的不好的偏见（例如，取消隐藏在/之前/之后。在本文中，我们提出了一种基于因果推理而非常规可能性的新颖的SGG框架。我们首先为SGG建立因果图，然后对图进行传统的有偏训练。

2021-08-16 15:11:19 710

原创 SGG Trans【VCTree：Learning to Compose Dynamic Tree Structures for Visual Contexts】19pytorch 20.12.11

Learning to Compose Dynamic Tree Structures for Visual Contexts摘要1. Introduction三级目录摘要我们建议构成动态树结构，以将图像中的对象置于视觉环境中，以帮助进行诸如场景图生成和视觉问答的视觉推理任务。与现有的结构化对象表示形式（包括链和完全连接的图）相比，我们的可视化上下文树模型（称为VCTREE）具有两个关键优势：1）高效且富有表现力的二叉树编码对象之间固有的并行/层级关系，例如“衣服”和“裤子” “通常同时出现，并且属于

2021-08-16 15:10:45 1696

原创 SGG Trans【Bridging Knowledge Graphsto Generate Scene Graphs】

Bridging Knowledge Graphsto Generate Scene Graphs摘要3 Problem Formulation3.1 Knowledge graphs4. method项目地址：https://github.com/alirezazareian/gbnet摘要场景图是解析图像内的强大表示，即他们的抽象语义元素，即，对象及其互动，这促进了视觉理解和解释的推理。另一方面，常识性知识图形是丰富的存储库，它编码了世界是如何构建的，以及一般概念如何互动。在本文中，我们给出

2021-08-16 15:10:21 874

原创 Trans SGG[after all,..Multi-modal Fusion Functions

after all,..Multi-modal Fusion Functions摘要1 INTRODUCTION AND MOTIVATION2 BASELINE SGG3 BACKGROUND4 METHODS5 EXPERIMENTS5.1 Experimental setup5.2 Dataset5.3 Metrics6 RESULTS AND DISCUSSION7 CONCLUSIONS摘要从物体分割到词向量表示，场景图形生成（SGG）成为一项建立在众多研究成果之上的复杂任务

2021-08-16 15:10:03 264

原创 SGG Trans【attribute：Deep Variation-structured Reinforcement】

Deep Variation-structured Reinforcement Learning for Visual Relationship andAttribute DetectionAbstractAbstract尽管诸如图像分类和检测等视觉感知任务取得了进展，但计算机仍难以理解场景中对象之间的相互依赖性，例如，对象或其属性之间的关系。现有方法通常会忽略捕获交互作用的全局上下文提示。在不同的对象实例之间，并且通过对所有可能的关系进行详尽的训练，单个检测器只能识别少数几种类型。为了捕获这样的全

2021-08-16 15:09:31 370

原创 SGG Trans【KERN：Knowledge-Embedded Routing Network for Scene Graph Generation】19Pytorch 20.12.16

KERN：Knowledge-Embedded Routing Network for Scene Graph GenerationAbstractAbstract要深入了解场景，不仅需要查找/识别单个对象，还需要推断它们之间的关系和交互作用。但是，由于现实世界关系的分布严重不平衡，因此，对于不频繁的关系，现有方法的效果很差。在这项工作中，我们发现对象对及其关系之间的统计相关性可以有效地规范化语义空间，并减少预测的歧义，从而很好地解决了不平衡分布问题。为了实现这一目标，我们将这些统计相关性并入到深

2021-08-16 15:09:16 573

原创 Trans SGG[GPS-Net]

GPS-Net3.3. Adaptive Reasoning Module3.3. Adaptive Reasoning Module在通过DMP获得细化的节点特征和通过NPS-loss获得对象分类分数后，我们进一步提出了一个用于关系分类的自适应推理模块（ARM）。具体来说，ARM通过两个步骤为分类提供先验：频率软化和每个三联体的偏差适应。在下文中，我们将详细介绍这两个步骤。Frequency Softening受[7]中引入的频率基线的启发，我们采用关系的频率作为先验来促进关系分类的性能。然而，[

2021-08-16 15:09:05 660

原创 Translation[VERTEBRA-FOCUSED LANDMARK DETECTION FOR SCOLIOSIS ASSESSMENT]——2021.6.18

VERTEBRA-FOCUSED LANDMARK DETECTION FOR SCOLIOSIS ASSESSMENT摘要1. INTRODUCTION2. METHOD2.1. Heatmap of Center Points2.2. Center Offset2.3. Corner Offset3. EXPERIMENTAL DETAILS3.1. Dataset3.2. Implementation3.3. Evaluation Metrics4. RESULTS AND DISCUSSION5.

2021-08-08 16:49:31 1236 3

原创【scene text recognition 】相关论文主要内容

str开源论文相关Mask TextSpotter v3：基于分割的场景文本定位算法ContourNet：进一步朝着准确任意形状的场景文本检测迈进Mask TextSpotter v3：基于分割的场景文本定位算法https://github.com/MhLiao/MaskTextSpotterV3v2网络是在We implement our method in Caffe2 and conduct all experiments on a regularworkstation with Nvidia

2021-07-03 14:10:40 432

weixin_44892610的博客