【论文阅读】A Point Set Generation Network for 3D Object Reconstruction from a Single Image

是一口羊

已于 2022-01-21 13:17:34 修改

阅读量5.4k

点赞数 8

分类专栏：论文阅读笔记文章标签： 3d 深度学习计算机视觉

于 2022-01-20 23:14:04 首次发布

本文链接：https://blog.csdn.net/weixin_45616624/article/details/122574890

版权

论文阅读笔记专栏收录该内容

3 篇文章 1 订阅

订阅专栏

论文题目: A Point Set Generation Network for 3D Object Reconstruction from a Single Image (由单张图像进行三维物体重建的点集生成网络, 下文简称PSGN)

论文作者: Haoqiang Fan (清华大学交叉信息研究院); Hao Su, Leonidas Guibas (斯坦福大学计算机科学系)

论文出处: CVPR 2017 (oral)

论文摘要: 解决了由单张图像进行三维重建的问题, 生成了一种直接的输出形式——点云坐标; 设计了新型有效的架构、损失函数和学习范式; 考虑到输入图像的形状真值可能是不确定的, 采用了一个条件形状采样器, 能由一张输入图像预测出多个合理的三维点云. 本文方法不仅能超过目前基于单张图像三维重建的最优方法, 还能做出多种合理预测.

介绍

目前面临的表示的问题: 目前信号领域用于判别、生成学习的现有深度网络结构适合如图像、音频、视频这样规律的采样数据, 而常见的如二维网格、点云这样的三维几何表示并不是规则的结构, 所以大多数现有工作所采用的如体积网格、几何体的二维视图集合这样的常规表示会导致采样分辨率和效率之间难以权衡, 包含了量化伪影, 掩盖三维形状在几何变换下的自然不变性.

点云表示的特点: 和使用几何基元的CAD模型/简单网格相比, 点云虽然在表示基础连续三维几何体时没那么有效, 但点云是一种简单、统一的结构, 其优势在于: ①更易于学习(无需编码多个基元/组合连接模式); ②当几何变换变形时点云能简单调整(连接性无需更新)

通过推断由输入图像和由此推断出的视点位置所确定的三维点的位置, 由单张图像能够重建出整个物体的三维点云, 每个点被可视化为一个小球, 沿方位角0°和90°两个视点的重建结果

非传统的网络输出的挑战: 由于相同的几何形状在相同的近似程度下可能接受不同的点云表示, 因此需要考虑如何在训练时度量损失. 本文使用基于EMD的解决方案. 为了解决从单张图像恢复出三维结构的不良问题, 网络需要去估计图像中几何体可见部分的深度, 对几何体的不可见部分进行假定, 并评估不同假定的可信度. 由于某些视角中固有的物体不确定性, 一张二维图像会产生多个同样好的三维重建, 因此不同于真值唯一的经典回归/分类问题, 损失的定义尤为重要.

本文贡献: 本文最终采用一个条件采样器, 从给定的一张输入图像的真值空间中选择可信点云. ①用深度学习技术解决点集生成问题; ②在单张图像三维重建任务上达到最优; ③系统地探讨网络的架构、损失函数设计问题; ④讨论解决单张图像三维重建中真值不确定的问题

问题抽象

目标: 由单张二维图像(RGB/RGB-D)重建出物体的完整三维形状

表示形式: 无序点集 $S=\left \{ \left ( x_{i},y_{i},z_{i} \right ) \right \}_{i=1}^{N}$ , 其中N=1024足以保留大多数物体的大致结构. 点集只需要对物体表面的点进行编码, 较为高效, 当物体旋转缩放时点的坐标值经简单线性变化即可.

将真值定义为一个以输入I为条件的概率分布 $P\left ( \cdot |I \right )$ , 训练神经网络G作为从该分布中取样的条件采样器 $S=G\left ( I,r;\Theta \right )$ , 其中 $\Theta$ 是网络参数,r是服从 $\mathbb{N}\left ( 0,I \right )$ 的随机变量作为扰动输入.

本文方法

点集预测网络

简单版本

编码阶段: 编码器由卷积层和ReLU层组成, 将输入图像I和随机向量r映射到嵌入空间中

预测阶段: 预测器通过全连接网络, 输出N行3列的矩阵M, 其中每行是一个点的坐标, 共N个点

双预测分支版本

更好适应自然物体中常见的大而光滑的表面, 不同于全连接每个点独立预测的方式, 改进预测器的版本包含两个平行预测器分支

FC分支: 同简单版本一样预测 $N_{1}$ 个点, 灵活度高, 能更好地描述复杂结构

deconv分支: 得到一张H*W*3通道的图像, 其中每个像素的3个通道值是一个点的坐标, 由此给出剩下的H*W个点, 而后会被合并形成矩阵M整个点集, 采用了跳跃连接, 权重共享简洁了参数, 空间连续性使其更能适应于大的光滑表面

点集间的距离度量

$L\left ( \left \{S_{i}^{pred} \right \}, \left \{ S_{i}^{gt} \right \}\right )=\sum_{i}^{}d\left ( S_{i}^{pred},S_{i}^{gt} \right )$

损失函数应满足: ①对应于点的坐标可微;②高效计算; ③对少量的离群点具有鲁棒性(即适用于稀疏点集)

Chamfer distance (CD) $S_{1},S_{2}\subseteq \mathbb{R}_{}^{3}$ 之间的距离

$d_{CD}\left ( S_{1},S_{2} \right )=\sum_{x\in S_{1}}^{}\min_{y\in S_{2}}\left \| x-y \right \|_{2}^{2}+\sum_{y\in S_{2}}^{}\min_{x\in S_{1}}\left \| x-y \right \|_{2}^{2}$

对每个点, CD算法找到另一个集合中最近的点并将距离平方相加. CD是连续且分段平滑的, 可并行, 如KD-tree这样的空间数据结构可用来加速最近邻搜索.

Earth Mover's distance (EMD)集合大小相等的 $S_{1},S_{2}\subseteq \mathbb{R}_{}^{3}$ 之间的距离

$d_{EMD}\left ( S_{1},S_{2} \right )=\min_{\phi:S_{1}\rightarrow S_{2} }\sum_{x\in S_{1}}^{}\left \| x-\phi \left ( x \right ) \right \|_{2}$ , 其中 $\phi :S_{1}\rightarrow S_{2}$ 是一个双向映射

EMD在各处是可微的, 为减轻计算, 本文使用了由D. P. Bertsekas. A distributed asynchronous relaxation algorithm for the assignment problem. In Decision and Control, 1985 24th IEEE Conference on, pages 1703–1704. IEEE, 1985.给出的 $\left ( 1+\varepsilon \right )$ 近似方案.

形状空间

神经网络在预测物体精确几何形状时不可避免地会有不确定性, 可能源于: 有限的网络容量; 输入分辨率使用不足; 三维-二维投影中因信息丢失导致的真值不确定. 面对无法精确解析形状这一固有缺陷, 神经网络会预测不确定空间的一个平均形状.

EMD和CD对形状的平均行为
a,b存在连续变化的隐藏变量(a中的圆的半径和b中的弧的位置), EMD大致捕捉到隐藏变量均值的对应形状; CD则产生了飞溅形状模糊了形状的几何结构
c,d存在分类隐藏变量(c中方状四角和d中条形旁边是否有圆), CD将主体外的一些点分布在了正确位置; EMD则严重扭曲了形状

生成多个合理形状

对于单张图像重建的不确定性, 不确定性建模方法MoN (min of N)损失:

$\underset{\Theta }{minimize}\sum_{k}^{}\min_{\overset{r_{j}\sim \mathbb{N}(0,I)}{1\leq j\leq n}}\left \{ d\left ( G(I_{k},r_{j};\Theta ),S_{k}^{gt} \right ) \right \}$ , 给定一张图像 $I_{k}$ , 真值点集 $S_{k}^{gt}$ , 网络G通过n个不同 $r_{j}$ 扰动项进行n次预测 (n=2便足够)

实验

数据集

从ShapeNet数据集的带有纹理的三维物体CAD模型渲染二维视图, 本文使用了涵盖2000个类别的220,000个模型作为训练数据. 对于每个模型, 半球体的半径归一化为单位1并和地面对齐. 根据Blinn-Phong着色公式和随机选择的环境图, 渲染成二维图像. 为了节省计算, 使用简单的局部照明模型.

由RGB图像重建三维形状(与基于深度学习的三维物体重建最优方法3D-R2N2的对比)

与3D-R2N2的按类别对比(IoU), 总共13类中有8类采用本文方法的单视图预测要比3D-R2N2的五视图预测效果还要好

额外信息的补充

输入RGBD图像的系统可被视为一个三维形状完成方法, 神经网络能够成功猜测出模型的缺失部分, 这通过使用在物体仓库中含有的形状先验, 系统能够利用对称(比如飞机有对称的一侧)或者功能(比如拖拉机要有轮子). 点集表示的灵活性有助于物体一般形状拓扑

多种合理形状预测

本文网络的随机性使得同一张输入图像能够有不同形状预测. 输入RGB图像, 训练使用Mo2/VAE来处理随机性

网络设计分析

双预测分支对重建的作用

简单版本网络和双预测分支版本网络的对比, 双预测分支版本网络的错误率用CD和EMD度量均更低

x、y、z通道值的二维图像: deconv分支网络学习使用卷积结构构造, 呈现出围绕物体弯曲的二维曲面; FC分支由于通道无序, 输出的组织性差

蓝色表示deconv分支预测结果: 其对物体的主体捕捉较好; 红色表示FC分支预测结果: 其对物体细节部分予以补充. 两个分支具有互补性

距离度量分析(损失函数的选择)

左侧蓝色表示采用CD训练网络的结果: 其倾向于在不确定部分(如门后)分散一些点, 但能更好地捕捉细节形状(如枪把); 右侧绿色表示采用EMD训练网络的结果: 其结果更紧凑, 但会过度收缩局部结构

对真实世界数据的应用结果

是一口羊

关注

8
点赞
踩
30

收藏

觉得还不错? 一键收藏
3
评论
【论文阅读】A Point Set Generation Network for 3D Object Reconstruction from a Single Image

论文题目: A Point Set Generation Network for 3D Object Reconstruction from a Single Image (由单张图像进行三维物体重建的点集生成网络, 下文简称PSGN)论文作者: Haoqiang Fan (清华大学交叉信息研究院); Hao Su, Leonidas Guibas (斯坦福大学计算机科学系)论文出处: CVPR 2017 (oral)
复制链接

扫一扫