Indoor Segmentation and Support Inference from RGBD Images论文翻译

最新推荐文章于 2022-10-14 11:05:35 发布

zhangxitong315

最新推荐文章于 2022-10-14 11:05:35 发布

阅读量1.7k

点赞数

文章标签：语义分割论文翻译

Indoor Segmentation and Support Inference from RGBD Images论文翻译

from RGBD Images论文翻译)

基于RGBD图像的室内场景分割和支承关系推断

摘要：我们提出了一种通过RBGT图像来解析室内场景的主要表面、物体和支撑关系的方法。大多数现有的研究都忽视了物体之间相互的物理作用，亦或是只适用于较为整洁的房间和走廊。我们的目的是将典型的、市场杂乱无章的室内场景解析分解成地板、墙面、支撑面和物体区域并还原他们之间的支撑关系。更好地理解为什么3D测试能够最好地实现结构化3D图像判读也是我们的主要目的之一。我们还推导了一种新的整数规划公式以推断物体间的物理支承关系。同时，我们还建立了一个包含有1449个RBGD图像的新数据库，捕捉了464个不同的室内场景，并且这些图像中都附有详细的注释。我们的实验证明了我们有在复杂场景中推理物体间支承关系的能力，并且验证了我们三维场景测试方法的可行性，与此同时，推断得出的支撑关系有助于我们更好的实现对象分割。

1.介绍
传统的图像理解方法旨在为图像中的每个物体提供标签。然而这种方法的描述十分简单，信息量很少，因为它无法表述出图像之中对象之间的物理关系，对象下一步可能进行的活动以及场景的几何结构。许多机器人和场景理解设备需要将场景解析为对象，表面以及他们的关系。例如，当一个人走进房间时，也许会想要找到他的咖啡杯和喜爱的书籍，拿着他们找地方过去坐下。这些工作需要将场景解析成不同的对象和表面。例如，咖啡杯必须要和周围的其他对象以及支撑表面有所区分。有一些任务需要解析场景成分的相互作用：如果咖啡是由书垫着的，那么咖啡一定是首先被拿起来的。
在本文中，我们旨在提供一种解析场景的方法，这种方法可以将可视的区域分割成物体和表面的形式，并由此推断他们之间的支撑关系。特别地，我们尤其关注了反映典型居住环境的室内场景。之中的难点有众所周知的目标分割的困难，以及小目标众多和他们之间的复杂交错，这是由室内居住环境中常见的杂乱无章的物品分布造成的。房间中丰富的几何结构使解析成为了可能：大多数房间是由平坦表面组成的，例如地板，墙面和桌面，目标物可以相对这些表面进行解析。用房间的几何结构纠正我们的可视数据能够帮助我们更好的解析房间。
如图一中所示，我们的方法首先要推断整体环境的3D结构，将图像解析成分开的对象并预估它们之间的支撑关系。一些任务，如估计地板定位或者寻找平坦表面通过深度信息会非常简单，这些信息的获取都十分简单。但是其他一些任务，分割和分类对象需要基于外观的线索。因此，我们应用深度线索来回避常见的停滞于单视图的方法，以获得一个更加细节和精细的几何结构。然后我们可以合理的借助于这一结构，应用图像和深度信息来分割物体并推断他们的支撑关系。我们的一大创新就是将一些物体简化为可以反映他们在场景中的物理作用的“结构件”：“地面”“不变的结构”例如墙面、天花板、柱子；“大型家具”如桌子、衣柜、柜台；和“小件”指一些易于移动的物体。这种结构的分类对于分割和支撑的估计都有帮助。
在推导支撑时，我们引入了一种原则性的方法将物理约束（目标物与它的假定支撑是否接触）和支持关系的统计先验相结合（例如，杯子时常有桌子支撑而不是墙面）。我们的方法在设计事是应用在包含成百上千的杂乱物体互相交错的实际场景中。在这种场景中，物体之间接触的界面经常不可见，因此我们必须对其推断。即使物体之间没有交错，有点的图像分辨率也会使得支撑模棱两可，迫使对不同图像区域进行全局推理。真实世界图像同样包括焦距的显著变化。而广角摄影会包括许多物体，窄视角相对的缺点就是有许多重要的场景中的重要成分没有观察到，我们的方法可以通过推断可视成分的定位和场景中可视成分的相互作用来处理这些情况。
如图1所示，我们的方法是先推断出场景的整体三维结构，然后将图像解析成单独的对象并估计它们之间的支承关系。在某些任务中，我们需要估计地板的方向或者找到大的物体表平面，而如果得知了深度信息，这些任务就更容易完成，而这些深度信息在室内是很容易得到的。但在做一些关于分割和分类物体的工作中，我们则需要以外观为基础的信息。因此，我们使用深度信息就可以解决一些常见的、并且往往使基于单一视图方法的物体分割工作停滞不前的几何分割困难，从而得到更详细和准确的几何结构。然后，我们就够专注于利用图像和深度信息实现对这种结构的合理利用，从而将共同参与分割的对象相联系并推断其相互间的支承关系。我们的创新之一是对物体进行结构分类，从而能够反映出他们在场景中的物理作用：提供这些物理作用的可能是“地面”；例如墙壁、天花板、和“props”的“永久性结构”；例如桌子、抽屉、计数器的“大家具” 和一些容易移动的“道具”。我们发现，这些结构分类有助于物体分割和支承估计。
为了说明支承关系，我们引入了一种原则性的方法，它集成了物理约束（例如，是接近其推定支持对象的物体）和支持关系的统计经验（例如，马克杯通常有桌子支承，但很少由墙支承）。我们设计的方法适用于现实世界的场景，这些场景中往往包含几十或几百个物体，并且它们多被严重遮挡或者摆放凌乱。在这些场景中，物体之间的接触表面通常不可见，因此必须通过推断得出结论。即使没有遮挡，有限的图像分辨率也会使物体间的支承关系变得模糊不清，因此需要在图像区域之间进行全局性的推理。现实场景图像也包含焦距的显著变化，虽然广角镜头包含许多物体而导致推断困难，但是窄角视图也可能具有一定的挑战性。因为场景中的某些例如地板的重要结构元素是无法被观察到的。而我们的方案能够通过推断不可见元素的位置来确定它们与场景中可见组件的交互关系来处理这些情况。

1.1 相关工作
我们使用几何先验来改善场景分析的这种整体方法与一组基于图像的单视图方法相关性最高（例如[1-7]）。我们使用“结构分类”，如“家具”和“ 道具”以改善那些涉及到使用“几何类”[1]来进行对象分割[8]或体积场景解析[3,5-7]情况的分割效果和支承关系推断的准确性。我们推断支承关系的目标与Gupta等最密切相关。 [6]Gupta应用启发式物理推理的算法来推断物体的体积形、遮挡关系和户外场景中的支承关系。我们的3D线索为支撑推断的进行奠定了更强的基础，我们的数据库为我们测试和评估支承关系预测器提供了可能，从而使我们能应对场景杂乱和隐藏支承区域。 Russell和Torralba [9]展示了如何使用用户注释的场景的数据库来推断3D结构和支承关系。而相比之下，我们方法的优势在于其完全自动性。我们从深度线索着手估计几何结构的方法与Zhang等人最密切相关。 [10]。Zhang等人就是在利用东台摄像机估计深度信息之后，使用RANSAC拟合地平面并且表示出相对于车辆移动方向和地面的三维坐标。

图1. 算法综述
我们的算法从左到右流动。给定输入图像与原始和修复的深度图，我们计算表面法线，并通过找到三个主要的正交方向将它们对准房间。我们然后使用RANSAC将点匹配到点，并基于深度和色彩梯度将它们分段。给定3D场景结构和物理支持的初始估计，wethen创建分层分割并推断支持结构。在表面非正常图像中，三个法线方向的绝对值存储在R，G和B通道中。 3D平面由单独的颜色指示。分割由红色边界指示。箭头从支持的对象指向表面支持它。
我们在三维坐标上使用RANSAC来初始化平面拟合，但是同时也利用一些对三维坐标，3D法线和强度梯度进行分析的图表来推断对象的正确分割方式并改进平面参数。这些领域的先行者们应用像素标记来实现对象区域分割和支承关系确定，但我们的方法是通过对有限的信息进行分析得到的。而其他得研究者，如Silberman et al。 [11]和Karayev et al。 [12]使用来自Kinect的RGBD图像实现物体识别，但他们都没有考虑类别标签之外的信息需求。总而言之，我们贡献的原创性在于实现对复杂的室内场景中支承关系的推断。我们结合了从深度推断的几何结构、在我们的结构分类中编码的对象属性、以及数据驱动的场景先验，这种方法对于解决充满堆叠物体和不可见支撑表面的杂款场景的分割是较为有效的。我们还提供从深度图像分析几何结构的想法，如平面曲面的图表分割和使用结构分类改善分割的方法。最后，我们集成了一个新的大型数据库，其中包含了已完成解析的RGBD图像，并且带有详细的物体标签和物理作用关系的注释。

室内场景理解数据库
最近这个研究领域已经引入了几个Kinect场景数据库。然而，NYU室内场景数据库[11]具有有限的多样性（只有67个场景）;在伯克利场景数据库[12]中，每个场景只有几个对象被标记;而其他数据库例如[13,14]是专为机器人应用程序所设计的。因此，我们引入了一个新的Kinect数据集1，它明显比现有的数据库更大且更具多样性。此数据库包含2分别从三个不同的美国城市的广泛的商业和住宅建筑收集的1449 个RGBD图像，其中包括264个横跨26个场景类型的不同室内场景。每个图像的密集的每像素标记都是通过于Amazon Mechanical Turk获得的。如果场景包含多个对象类型的实例，则每个实例将被贴上唯一的实例标签。例如，在同一图像中的两个不同的杯子将被标记为杯子1和杯子2，以独立识别它们二者。数据库中包含35064个不同的对象，跨越894个不同的类型。对于其中的的每一个图像，使用者都可以手动添加支承关系注释。每个图像的支承关系注释由3个元素组成：[Ri，Rj，type]其中Ri是被支承对象的区域ID，Rj是支承对象的区域ID，类型表示支承是否来自下方，（例如桌子上的杯子）或者是来自后方（例如墙上的图）。数据库的示例可以在图7中找到（对象类别标签未示出）。
室内场景结构模拟
模拟室内场景的结构室内场景通常是相对于地板和墙壁以及主平面（例如支撑表面，地板，墙壁和块状家具）的正交取向来布置的。我们将处理场景表面的初始推断视为一种对齐和分割问题。我们首先根据深度图像计算出物体的表面法线。然后，我们以物体的表面法线和切线为基础找到三原色和正交场景的方向，并旋转三维坐标与主方向对齐。最后，我们利用3D点中的RANSAC找出3D平面，并使用基于表面法线，3D点和RGB梯度的图切割将可见区域分割为平面或背景之一。如图1所示是几个实例。现在让我们更详细地描述这个过程的每一个阶段。

3.1 对准房间坐标
我们提供注册的RGB和深度图像，带有深度像素[15]。我们通过在深度阈值内堆环绕像素进行采样并拟合出小二乘平面，以此为基础来计算每个像素处的3D表面法线。对于每个像素，我们有图像坐标（u，v），3D坐标（X，Y，Z）和表面法线（NX，NY，NZ）。我们的第一步是将我们的3D测量仪器与房间坐标对齐，从而保证地板方向朝上（NY = 1），并且每个墙壁的法线都在X或Z方向上。我们的对其方式是基于曼哈顿世界假设[16]，多个可见表面方向沿三个正交方向之一。为了获得坑成为主方向的备选方向，我们从图像中提取某些直线并计算出表面法线的平均移动模式。使用由此网站提供的方法从RGB图像中提取直线段。从435,103个视频帧中手动选择图像，以确保我们获得多样的场景内容和与其他帧数中场景的相异性。

图2. 场景结构估计
给定输入图像（a），我们计算表面（b）并且将法线（c）与房间对准。然后我们使用RANSAC生成按照内点数（d）排序的任意平面候选。最后，我们使用图切割（e）来分割平面的可见部分。顶行：典型的具有矩形布局的室内。底行：具有许多斜角的场景; 地板指向正确恢复。
Kosecka et al。 [17]并且记录沿着每条线的3D坐标。我们使用SVD来计算每条线的3D方向，以找到最大变化的方向。通常，我们有100-200个主要方向的候选人。对于大致在Y方向上的每个候选，我们采样两个正交候选，并计算三元组的分数如下：
（1）
其中v1，v2，v3是三个主要方向，Ni是像素的表面法线，Li是直线的方向，NN和NL是表面点和线的数目，wN和wL是3D法线和线条的权重。在实验中，我们设置wN = 0.7，wL = 0.3和σ= 0.01。我们选择具有最大得分的候选集，并且通过vX，vY和vZ来表示它们，其中vY被选择为最接近原始Y方向的方向。然后Wecan使用旋转矩阵R = [vXvYvZ]对准场景的3D点，法线和平面。如图1所示。 3，对齐程序使得场景楼层的80％在垂直方向的<5°内，而事先提前5％.3.2建筑和分割平面1。

图3. 地板对准

3.2 平面的规划和分割
我们使用RANSAC过程生成场景0,8平面的潜在墙，地板，支撑和百分比。沿像素网格的几百个点以及在水平和垂直方向上以固定距离（例如，20个像素）的附近0.4个点进行采样。提出了平面的对齐的多个平面，仅在距离垂直RANSAC和非最大抑制的离散度之后的内部像素的阈值（2500）之上的平面如图3所示。为了确定哪些图像像素对应于每个平面，我们使用具有基于3D点X的阿尔法扩展的图切割来求解分割。

图4. 分段实例
我们展示了两个层次分割的例子。从大约1500个超像素（未示出）开始，我们的算法基于属于相同对象实例的两个区域的似然性迭代地聚合区域。对于最终分割，没有两个区域具有大于50％的相同对象的一部分的机会。
每个像素的表面法线N和RGB强度I. 每个像素i被分配平面标签yi = 0.Np平面（yi = 0表示无平面）以最小化以下能量：
（2）
一元项f3d和fnormencode在一个像素处的3D值和法线Pr（dist | inlier）Pr（dist | outlier）是否与平面的一致。每个项被我们定义为像素的三维坐标或法线与平面的距离之间的距离概率的对数比，以此来假定该像素是内层或外层。初始化概率是用由RANSAC内部/外部测试设备得到的100个bin的直方图估计出来的。我们将根据是否在每个像素处直接记录了深度测量（α1 = 1）、内插深度测量设备（α1 = 0.25）用αi来加权一元项。 1（。）是指示器函数。而其中成对项fpair（yi，yj，I）=β1+β2|| Ii- Ij || 2的作用是敏感梯度曲线相对平滑。在我们的实验中，β1= 1，β2= 45 /μg，其中μg是连接在N8内的像素强度值的平均平方差，8连接的邻域。

4 图像分割
为了将物体进行分类并且分析他们的关系，我们必须首先将图像分割成对应不同物体和表面的不同区域。我们从逆分割开始进行，成片的区域基于一些已知的相似点而被合并。基于从RGB图像、深度图像以及场景结构预计中的线索，能够判断不同区域是否从属与统一物体的分类手段成为了分割场景的关键元素。
为了得到初始的分割区域，我们采用了分水岭算法，这种算法一开始由Arbeleaz提出，应用在Pb边界。我们让这种逆分割方法与第三章所描述的3D平面区域划分法相吻合，这种划分方法避免了所分割的区域跨越亮度十分模糊的墙体边界。我们还尝试了通过深度或者表面标定的地图来合并区域，但是我们发现这并没有什么作用，主要是由于深度和表面的标定经常在图像中由于亮度的不均匀而出现不连续的情况。我们的逆分割会分出1000到2000个区域，很少会有区域在同一物体上重合。
对于分层分割，我们采用Hoiem的代码和算法，具有最小边界强度的的区域会被迭代合并，直到最小强度达到给定阀值。边界强度的判定是由改进提高的决策树分类器进行的，我们记为，是第个区域的标签，代表不同的区域特征。分类器的提高强化是应用RGB和基于Hoiem的位置特征完成的，而他们的几何分辨能力的提升是应用的更加可靠的深度线索完成的。这些已完成的具有3D编码特征的区域如果对应于不同的平面或者有不同的表面取向亦或是具有深度差那么他们有可能属于不同的物体。2D和3D两种类型的特征都十分重要：3D特征可以帮助区分物体的结构和边界；标准2D特征对于区分临近或接触的物体十分重要。

5 支撑关系模拟

5.1 建模
给出一个分割为R个区域的图像，我们用表示隐藏变量，其表示区域之间的物理支撑关系。对于此模型，我们给出一个基本假设：每一个区域都是由图像平面之中的可见物体支撑的，此时或者是有图像中不可见的物体支撑的，此时，亦或是这片区域不需要支撑，它代表着地面本身，此时。除此之外，用代码代表区域的支撑来自物体上方或者物体下方。
在推断支撑关系时，物体类型的先验成果可以成为判断支撑关系的可靠预测标准。例如，一堆水果显然是不可能支撑一个沙发的。然而，与其根据物体类型对支撑关系建模，我们对每一个分割区域分类定位Mi，它代表这四种意义：地面（Mi=1）、家具（Mi=2）、立柱（Mi=3）、几何结构（Mi=4）.我们在我们的密集标签数据库中，将每一个物体都分类到这四种结构类型之一。Props是指可以方便移动的小物体，家具是指不能移动的物体，支撑结构是指房间中不与地板接触的部分（如墙面、天花板、柱子等）。我们会把密集标签数据库中的每一个物体归类到他们其中之一。
我们想推断支撑区域类型S =（）、支撑类型T={0,1}R、结构类型M={1,2,3,4}他们可能的联合分配。更标准地：
(3) 代表这些标签的量级，我们将模型的后验分布因式分解为条件率:

(4)

代入上面等式得：

(5)

代表区域和支撑区域的支撑特征，DS则是一种可以令最大化的支撑关系分类器。代表区域的结构特征，是一种可以令结构分类器。两种分类器相关的特点和规格在5.3和5.4单元都会分别介绍到。
先验的Ep是由非常多的条目所组成的，正式的定义如下：

(6)

代表在过渡区域时该区域属于不同类别结构的可能性，它可以表示为以下形式：
(7)
是指支撑相容性，确保了支撑区域和被支撑区域紧密接触，它的正式定义如下：
(8)
和分别代表一个3D区域和区域中相对地面的最高点和最低点。
是指区域和之间的最短水平距离。
是指地面相容性，如果，则它的结果就是无限大，这个参数确保了每一个不与地面接触的物体都有支撑的结构。
是指整体地面相容性，这个参数确保了所有的标签区域都会不低于具有地板标签的区域，它的标准定义如下：

(9)

5.2 整数程序公式
在公式（3）中定义的最大后验概率推导的难题可以按照整数程序的形式来建立等式，这里需要极少布尔指示变量来代表未观察变量和的不同配置形式。
令代表图中的区域总数，这意味着图中要多配置一个隐藏区域。对于每一个区域，令布尔变量为来代表和。当时，区域的支撑来自于其下的区域此时.当布尔变量时，该区域的支撑来自于其上的区域。变化的变量会表明区域是否代表地面。
更进一步地，我们会应用布尔变量来代表区域从属于结构，用指数变量来代表，以及，应用这种重复代表把前验分布难题建立成整数等式，如等式10-16

支持变量和支持相容性在IP选项中通过系数被编码进去，结构分类和地面整体相容性通过变量进行编入，过度变量通过参数进行编码。约束11和12确保了每一个区域都有唯一的支撑、类型和结构标签。等式13满足了地面相容性。约束等式14和15是边缘化和一致性约束。最后，约束等式16确保了每一个指数变量都代表了实际的意义。解决等式11-16中的方程是十分困难的。我们将约束重新整理为一个线性程序，我们用来解决Gurobi’s LP。将完整的约束16简化为：
(17)
部分结果的解决是通过将近似的支撑，结构类型设置为1其他值设置为0来解决的。在实验中，我们发现这种设定使联系过为紧密，以致在1449个图像中，有1394个图像的对偶间隙为0。
5.3 支撑特征和区域分级
我们的支撑特征会捕获个体和成对的区域特性。以下特性是不对称的：特征向量将被用于去决定是i去支持j而不是j去支持i。几何特征记录接近和控制，例如当投射到地面时，是否一个区域包括另一个区域。形状特征对捕捉不同支持对象的特性而言是非常重要的：从下面支持其他对象的对象具有大的水平分量而且那些从后面支持的具有很大的垂直分量。最终，区域特征会捕获候选对象的绝对3d地域。
为了完善，一个逻辑回归分类器的每个特征向量搭配一个标签，这些显示了（1）是否j从下而支持i，(2)j从后而支持i，（3）j代表平面或（4）这两个区域之间不存在联系。预测是否j是平面对计算很必要例如是一个正确的可能性分布。

5.4 结构分类特征和区域分级
我们的结构分类特征与之前的工作中用到的物体分类是类似的，他们包括尺度不变的转换特征、曲面法线的柱状图、2D和3D的边界边界框尺寸、色彩直方图和相对深度。逻辑回归分类器可以通过设定能够准确识别图像区域内每一个物体的类别，同时分类器的输出会被理解为参数的可能性。

6 实验

6.1 评估分段
为了评估我们的分割算法，我们使用来自[8]的重叠标准。如表1所示，通过使用区域加权分值，RGB和深度特征的组合分别以10％和7％的比率优于其他特征集。我们还额外实行了两个分割实验，在分割过程的每个阶段，我们从中间分割中提取和分类支持和结构类特征，并且使用支承和结构分类器输出的信息作为边界分类的特征。这些特征的添加都提高了分割的性能，对分割结果有很好的增益效果。
特征
加权分
未加权分
RGB
52.5
48.7
深度
55.9
47.3
RGBD
62.7
52.7
RGBD+支持
63.4
53.7
RGBD+支持+结构分类
63.9
54.1
表1. 分层分割精度，地面真实区域的最佳匹配分割区域的加权或不加权分

6.2 支持评估
由于支承注释标签是根据地面的实况区域定义的，所以我们必须将关系映射到分割区域上。为了避免自下而上分割中的支承推断错误，映射的执行程序如下：保证来每个支承标签都来自地面的真实区域。图像中可以找到的一系列原始特征都会被冠以一系列的。这些标签都处于区域和区域之间。
我们根据几个基准评估我们的支承推理模型：
图像平面原则：用受过测试的地板分类器分配。区域。对于剩余的区域来说，如果区域被图像平面中的另一区域完全包围，则需要将来自后方的支承分配给较小区域作为支承区域。否则，就将每个候选区域的下方区域作为支撑。
结构类型原则：调试分类器以预测每个区域的结构类型。如果一个区域被估测为地板，则使。被预测为家具或结构类型的区域被指定为最近的地板楼层区域的支承。最后，小物件从贴近他们下方的平面区域获得支承。
支持分类器：对于图像中的每个区域，我们使用Ds推断图像中的每个区域与图像中的每个其他区域之间的支承关系的可能性，并且为每个区域分配由支持分类器分数指示的最可能的支承关系。
用于评估的度量标准是我们预测正确支承的区域数除以具有支持标记的区域的商。我们还区分出不可知类型的不同精度，其中无论支持类型（下面或从后面）与标签和类型感知精度匹配于否我们都会有预测的进行支持关系更正完善环节。其中，只有正确类型的预测被认为是正确的支承预测。我们也评估了每种方法在地面实况区域和由自下而上分割产生的区域上的适用性。
支承分类器得出的结果在表2中列出。当我们使用地面实况区域时，图像平面规则和结构类型规则执行起来非常简单。事实上，当使用地面实况区域时我们验证出，结构类型原则优于单独的支持分类器，这证明了结构类别的可利用性。然而，这两种基于原则的方法都能很好地处理遮挡问题，也不能很好地推断所涉及到的支承类型。当考虑支承类型时，如果使用地面实况和分段区域时，我们基于能量的模型在使用地面实况区域和分割区域时，在结构类原则方面分别可以改进9％和17％，这充分表明我们进行推断是时需要结合考虑全局推断和部分推断。
视觉效果示例如图7所示。图中展示出了很物体信息，例如，第3行第3列中的右修整器和第5行第1列中的椅子，他们是由在图像平面中远离它们的区域所支承的，这种支撑的推断需要非当下地点推理的帮助。该算法的主要障碍之一是错误的层级分类，如最后一行的第三个图像中所示。此处对于地毯的标记是不正确的，因为这个区域是为给墙和床提供支承用的，而不是作为真实的地板而存在。此外，不正确的结构类型预测也可能会导致不正确的支承推断，例如表中第4行第1列中的物体。
支撑关系预测
区域来源
地面真实区域
分割区域
算法
类型未知
类型已知
类型未知
类型已知
图像平面原则
63.9
50.7
22.1
19.4
结构分类原则
72.0
57.7
45.8
41.4
支持分类器
70.1
63.4
45.8
37.1
最小能量
75.9
72.6
55.1
54.5
表2. 各种方法进行支撑推断的结果。精确度由支持被正确推断的总区域除以标记区域的数量来测量。类型感知精度排斥不正确的支持类型和类型不清。

图5. 支持算法比较

6.3 结构分类预测评估
为了进行结构分类预测的评估，我们计算分析了混合矩阵的整体精度和它的主对角线，如图6所示，LP方法在物体的结构分类方面的改善收效甚微。结构分类在深度值混乱或者在分割区域时，将两个不同结构类型的区域合并了都会导致其准确性难以评估。

图6. 结构分类识别的准确性

7 结论
我们建立了一个全新的用途广泛的数据库，它可以完成多种任务包括对场景的识别、分割以及对物体之间支撑关系的推断。该数据库对于室内场景复杂性和多样性的描述是具有独特优势的，在利用场景提示、对称房间的3D线索、平面匹配以及室内先验经验的基础上，我们提出了能够解析复杂室内环境的方法。文中实验验证了该方法在推断支撑区域以及支撑类型的高度可靠性，尤其在场景分割精确细致的情况下，推断更加准确。我们也证明了对支撑结构和主要平面做出先验估计时，会使得分割更加精准。更进一步地，我们可以对物体和平面的延伸进行更进一步地推断，同时对物体的类目进行细致定位。

致谢
本文部分工作是由NSF基金09-04209, 09-16014和IIS-1116923赞助支持的。同时也感谢微软公司对本工作的大力支持。本文的部分工作是由Rob Fergus和Derek Hoiem在Microsoft Research Cambridge.交流研究时完成的。

zhangxitong315

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Indoor Segmentation and Support Inference from RGBD Images论文翻译

Indoor Segmentation and Support Inferencefrom RGBD Images论文翻译from RGBD Images论文翻译)基于RGBD图像的室内场景分割和支承关系推断摘要：我们提出了一种通过RBGT图像来解析室内场景的主要表面、物体和支撑关系的方法。大多数现有的研究都忽视了物体之间相互的物理作用，亦或是只适用于较为整洁的房间和走廊。我们的目的是将典...
复制链接

扫一扫