基于群智感知的室内平面图重建

最新推荐文章于 2022-07-07 13:27:26 发布

xhtl007

最新推荐文章于 2022-07-07 13:27:26 发布

阅读量1.6k

点赞数

分类专栏：三维重建论文翻译群智感知文章标签：三维重建群智感知

三维重建同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

论文翻译

2 篇文章 0 订阅

订阅专栏

群智感知

1 篇文章 0 订阅

订阅专栏

摘要

在当前室内定位服务的零星可用性的环境下，平面图的缺失是一个重要原因。服务提供者不得不通过宽泛的努力并花费更多的时间和建筑运营商协商，或者雇一些专门的人来搜集这些信息。在这篇文章里，我们提出了Jigsaw，利用移动用户的群智感知数据来实现平面图重建系统。它抽取了用户提供的图片中的单个地标对象的位置、规模、方向信息。它也从内部感知数据获得了相邻地标对象的空间联系，然后在一个初始的平面图上计算这些对象的坐标与方向。通过结合用户移动性踪迹和采用的图片的坐标，将会得到有门厅，房间大小，性状的整体平面图我们在两个大型购物中心的三次尝试显示，地标对象的位置和方向有90%可能性误差在1-2m左右，5-9°，而门厅连接性100%正确。

1.介绍

与户外几乎无处不在的报道相比，本地化服务在室内大多是是零星的。工业化的最高水准，谷歌户外地图，在全球范围内覆盖了10000个地点，这也只是地球上数以百万计的室内环境的一小部分（比如，机场，火车站，购物场，音乐厅，医院）。对于全部覆盖的主要阻碍就是缺少室内平面图。服务提供者不得不花费更大的努力和更多的时间来和写字楼业主协商来收集平面图，或等待他们资源下载这些数据。这两者都不能在短时间内大规模覆盖。
在这篇文章里，我们提出了Jigsaw，利用移动用户的群智感知信息数据来为灵活的室内环境构建平面图。其避免了和服务提供者过多努力和时间协商的过程。他们不需要和房间/建筑拥有者一个一个交流，也不用派人一寸一寸测量室内的环境。这开启了平面图快速重建以及规模可变的可能性。
群智感知的概念现在越来越受欢迎了。现在的工作已经使用了群智感知数据来本地化用户并并减少WIFI签名的校准工作。在这些文献里（XX,XX,XX），室内群体打开了重建高速公路/房间形状以及平面图连通性的道路。其使用惯常数据来建立并结合用户的移动踪迹来推断出平面图所可能到达区域的近似形状。
然而，这里仍存在很多空间可以提升。惯常数据并没有给出准确的坐标以及室内POIs（比如商场的入口）的方向，这对于指引用户来说很重要。因为在死亡推测中的误差累计，锚点（比如电梯，自动扶梯，楼梯以及GPS位置的入口/出口，需要独特的传感数据签名来修正移动轨迹的漂移）。但在许多大型室内环境中，比如锚点，变得很稀少以至于很难提供足够的修正。因此，经常发生高估/低估可用区域的事情，比如，一条轨迹漂移到墙上，或者存在一些用户很少达到的角落。Jigsaw结合了计算机视觉和移动技术，并使用最优化技术和概率公式来建立相对完善和准确的平面图。我们使用计算机视觉技术来从图片中提取单个地标的几何特征（比如，商店入口的宽度，邻接墙体的长度和方向）。然后我们设计了几种数据聚集的微任务，用户可以采取一系列的操作来收集数据，特别适用于建筑平面图。
我们从一些类型的微任务的惯性数据推断出相邻地标间的相对空间关系，并计算一般平面图中地标的最佳坐标和方向。使用组合优化和概率占用等技术，来自另一类微任务的用户迁移踪迹被用来获得走廊连接，方向定位，房间形状/大小。
Jigsaw设计是基于计算机视觉和移动技术的实现，而这两者又可以互补。当该区域具有稳定和清晰的视觉特征时，视觉能产生精确的几何信息。这对于包含丰富特征和详细信息的地标是很合适的，它们位置/方向的详细信息也是很好的。当进行更低的计算开销时，移动技术只给容易进入的地区粗略的草图，这对于无纹理或玻璃墙这种很少稳定特征存在的物体来讲是很合适的，这时也并不需要很多详细的信息。因此，我们得以利用“高昂”的视觉技术获取到更精准和细节的单个地标的信息，同时利用低廉的惯性数据来获得大型平面图地标的放置信息，并用较低的精确性推断出不重要的走廊和房间信息。组合优化和概率公式为我们打下了更坚实的基础和健壮性来防止数据中的错误。
在这次的工作中，我们做了如下贡献：

我们采用合适的计算机视觉技术，并设计了一个地标建模算法，这个算法可以使用它们从地标图片输出的内容来推断出主要几何特征的坐标（比如：商场入口，邻接的墙段）和本地坐标系统的摄像机状态。
我们设计微任务来测量地标之间的空间关系，并使用最大似然估计来推断出坐标放置算法，以计算一般平面图中地标的最佳坐标，和地标方向。
我们设计了几种增强算法，使用一种组合优化公式重建墙边界，同时使用抗噪声能力健壮的概率抢占地图来获取走廊连接性和方向，房间大小/形状。
我们开发了一个原型并在两个大型的灵活室内环境尝试了广泛的实验。结果显示地标的位置和方向错误大概为90%的可能性是1~2m和5~9°，并有100%的概率纠正岛屿拓扑连接，这表明了我们的设计的有效性。
注意，我们并不是说开发了新的计算机视觉技术，我们的贡献是以一种适用于平面图重建的新方式对视觉识别和移动技术的适当组合，并伴以数学公式，虽然有来自图片和惯性数据资源的错误和噪声，但也提高了许多精确性。
这篇论文的后面部分组织如下：第二部分是总纲，然后提出了地标模型的设计、放置以及增加算法，分别在第三四五部分，我们设计实验评估我们的模型，标明其可用性，这一部分是第六部分，在第七部分讨论了研究的限制后，在第八部分和相关的工作做了比较以后，我们在第十部分得出了结论。

2.设计综述

这里写图片描述
表格1：Jigsaw 包括3个阶段：地标模型，地标放置以及地图添加。每个阶段都使用图片或惯性数据以及从前一阶段得到的输出。
Jigsaw利用图片、加速器以及陀螺仪数据。这个重建过程包括三个阶段：地标建模、放置、以及增加。首先，需要两个计算机视觉方面的技术：SfM，消失线检测，这两个被用来获得本地坐标系统的每个地标的几何测绘的规模和坐标（第三部分）。SfM也得出了每张图片摄影机的位置和方向，能够有效地定位拍摄照片的用户。接下来，两类微任务，CRC和CWC，用来搜集陀螺仪和加速器的数据，来测量两个不同地标的距离和方向差异。在一个最大似然估计的公式里，这些测量内容被用作一个限制，来计算一个全球坐标系统中地标的方向和位置（第四部分）。最后，一个组合优化方法用来把地标的邻接墙体连接成连续的边界，而概率抢占地图被用来从用户惯性踪迹中获取走廊的连接性，方向以及房间大小/形状（第五部分）。
不同于现在大多数工作中所采用的机会数据搜集，我们假设用户会主动尝试做一些不同的数据搜集的微任务。每个微任务定义一个或多个行为来搜集在某一区域、持续时间内的不同数据。例子包括：为商场入口拍一张照片，拍一张商店的照片，然后转身对另一家商店拍照，沿着一条特定轨迹行进，在开始走之前/停止走以后马上拍照片。每个微任务都让我们在一些特定阶段得以搜集一些有用的数据。我们假设服务提供商有一些特定的激励机制来奖励那些努力的用户，我们不必在意那些垃圾信息。

3.地标建模

在这个部分，我们将会描述我们怎样抽取图片中的地标主要几何特征的坐标和规模（比如：商店入口的宽度，邻接墙体的长度和方向）。

3.1地标建模

这里写图片描述
表2.规范商店入口的模型有四个几何点，P1-P4，以及三个墙体的连接点，Q1-Q3。
我们用一个非常简单的模型来描述地标的主要几何特征。正如表2中所描述的那样，一个地标被表示为L=（P,Q），P是地标的几何顶点（比如，P1-P4是商店入口的四个角），Q是连接楼层邻接墙体的连接点（比如：Q1-Q3连接两个墙体）。每个坐标都有一个本地坐标系统，我们设置商店入口P3P4的中心点为C。X轴和CP4共线，X-Y平面是地面，三轴满足右手准则。
我们将利用两种计算机视觉技术的输出。SfM和消失线检测来从地标图片中获得P,Q的坐标。
SfM是一个成熟的计算机视觉技术，常被用来构建某个物体的3D模型。给定某一个物体的不同视角的一组图片（比如一栋大厦），其将会得到（1）一个在本地3D坐标系统的点云，其由许多点组成。每个点都代表物体上的一个物理点。（2）每张图片的摄像机的状态（比如3D坐标与方向），这个会很大程度影响本地用户/摄像机拍摄照片。
像下面这样只使用SfM，可能并不是室内平面图重建的最好匹配。首先，SfM依赖于大规模均匀分布且各有特色的图片特征，来获取精确和细节的3D重建模型。虽然地标本身有很多丰富的特征，比如logo，装饰，但许多地标之间的部分有很少内部/动态特征（比如，无纹理的墙，透明的玻璃墙），这些SfM处理的不是很好。第二，SfM所产生的点云并不是我们用来构建平面图所需的。我们仍然需要推导出我们模型中的几何特征的坐标，例如，入口的拐角。

3.2几何顶点的坐标

为了获得模型中主要几何顶点的坐标，我们采用了一个两个阶段的算法。首先，我们使用一个已知的消失线检测算法来为同一个地标的每张图片减少线段（表3b）。我们把共线和平行的段合并成一条长线段。根据经验使用两条线段之间的角度阈值和距离阈值来完成。这个合并过程持续进行直到没有更长的合并可能发生。然后我们过滤出仍剩余的短线段，只留下长线段。
下一步，我们计划使用SfM产生的合并矩阵，把每张图片的2D长线段合并到3D坐标系统中去。之后我们使用自适应的K均值算法根据他们在3D中的距离来把投影3D线聚合成组，然后把每簇聚合成3D线段。这就给出了地标可能的3D轮廓线。他们之间的交集点用于计算主要的集合顶点。
上述算法解决的一个实际问题是，从比较极端的角度拍摄的图像。长轮廓线（比如表2中的P1P2）可能会成为这样的图片里的一个短段。因为大部分的图像是或多或少的正面和中心，真实的轮廓线在合并和投影以后仍将会有足够数量的长线段。因此第二阶段的聚合将会在从极端角度的图片移除噪声时辨别它们。
因为同样的原因，我们发现墙段连接点的坐标远不如中心坐标来的精确。这可以简单地解释为，大多数照片都覆盖了地标的中心（比如商店入口），但可能会丢掉一些外围不重要的区域。接下来，我们将使用一个更令人信服的方法来推断出连接点处的坐标。

3.3墙段的连接点

我们在平面上投影出地标的3D点云，并在线形上搜寻密度分布点，来寻找墙段及其连接点。这是因为在同一个垂直平面/墙体将会落到楼层的连接线上。（比如，墙段连接入口左边的P3Q1）。
我们从先前计算的一些几何顶点开始（比如，P3P4在表2中给了入口墙体的投影线，在表4里标记为两个点），之后在墙上发现两个终点（在表4中被标记为两个十字）。从每个终点继续搜寻下一个链接点，直到没有密度分布点能被找到来组成线。表4显示了被发现的三个墙体连接点。

3.4例子

表4显示一个商店入口的点云投影到了平面图中，然后SfM产生摄像机坐标。我们标记出几何顶点（diamonds）以及墙体连接点（crosses）。在这个例子里，入口的宽度有0.086米的误差（大概是真实宽度的4.78%，1.8m），我们也检测了沿着走廊的两个外部墙段。他们之间的角度误差是0.08°（是90°的0.09%）。我们发现由SfM算法产生的176个摄像机坐标是相当精确的（这里只展示出其中的一部分）。本地误差有90%的概率在1.2m以内，最大误差是1.5m。我们也测试了图片的数量是怎样影响SfM的本地表现。我们把图片的数量分类为20-160，我们发现大约80张图片就足够摄像机定位。75张（94%）图片被定位，90%概率有1.8m误差，最大误差5.2m。我们将在第六部分提出更系统的估计结果。

4.地标放置

在这个部分，我们估计地标配置，配置被定义为在全球2D坐标系统中的坐标和方向。我们也能推断出拍摄照片的地方的全球坐标。为了这个目的，我们首先从惯性数据和图片数据中邻接地标的空间关系。配置的决定被公式化描述为一个最优问题发现达到成对观察关系的最大一致性的最有可能的地标的位置和方向。
一旦地标的地标的全局坐标知道了，那么图片拍摄的全局位置就是在每个地标的本地坐标系统中就成了简单的摄影机位置的坐标转换成全局的。在第五部分，为了抢占地图，每台摄影机的位置都在增强算法中扮演了重要位置。