“达摩链接”生态系列讲座作为连接达摩院与学术界、产业界的社区活动,通过组织内外部的沙龙、讲座等形式,旨在促进前沿技术的分享交流,推动技术成果的转化、合作与应用落地。
为了让更多开发者、学术研发人员能够深入了解“达摩链接”生态系列讲座的分享内容,我们现将精彩要点整理成文。以下内容为分享人观点/研究数据,仅供参考,不代表本账号观点和研究内容。
背景
在生成式 AI 技术热潮下,3D AIGC 也开始展现潜力。虽然目前 3D AIGC 尚不如文本、图像的生成技术成熟,但 Clay 等模型已经开始有了行业应用。
传统的计算机图形技术(CG)所做的主要工作同样是数字内容生成(GC),涉及建模与光线追踪渲染等过程。
但传统方法的主要缺陷是成本过高,很难满足智能手机和未来 XR 头显设备的内容需求,而 AIGC 技术为 3D 内容生成提供了一种成本较低的路径,可以通过端到端的方式直接输出 3D 图像,满足两大类 3D 内容创作需求:一类是从无到有创作 3D 图像,主要涉及几何表示方法;另一类是在数字世界中重建真实世界场景,主要涉及 3D 物体重建方法。
过去十余年来,行业在数字内容生成领域的技术演进大致分为 AIGC 和几何表示两条路径,前者包括变分自编码器、生成对抗网络、扩散模型、Transformer 等;后者包括神经辐射场、高斯泼溅等技术成果。
基于这些成果,行业出现了文本生成图像、文本生成视频(Sora)等应用,但直接生成 3D 内容的应用尚在起步阶段。相比之下,视频生成应用中需要 3D 属性来保障内容的一致性,这也是 3D AIGC 的主要应用场景。
无论是生成 2D 图像、3D 内容还是视频,AIGC 技术想要在图像领域广泛普及应用,需要在四大要素上获得较好的表现:
第一,生成结果具备照片级的真实感(Photo-Realistic);
第二,生成效率高,让终端用户无需等待很久(Efficient);
第三,时空维度可大规模扩展,可以生成较大尺寸、较长时间的高一致性视频(Scalable);
第四,较低的成本与功耗(Low Cost)。
以上这四要素可归纳为“REAL”。当前,行业正在几何表示和几何重建等领域努力,向着这一目标持续前进。
几何表示方法的发展历程
3D 图形技术诞生初期主要为工业设计用途服务,应用场景是 CAD 三维物体建模。早期的建模方法是通过连续多项式来表达形状,最新的神经辐射场(NeRF)方法则是使用函数来隐式拟合形状,并通过参数来控制形状,其更适合用于三维重建。
NeRF 方法的核心是通过一个神经网络来拟合一个形状,给定空间中的光线后对空间采样,每个采样点返回颜色与密度值,之后对所有采样点求和,得到图像的颜色。
在这种方法中,每个图像场景就是一个神经网络,每个点的所有光影材质信息都用同一个颜色值表达。只要训练图像是真实照片,模型输出的图像也很容易实现真实的效果。但这种机制很难解耦光影、材质等信息,且每个点的密度值也不是真实物体几何形状的刻画,会有偏差。此外,NeRF 方法的渲染效率很低,使用加速方法优化后也很难达到 10fps 的水平。
相比之下,高斯泼溅的效率很容易达到 100fps 以上,非常适合智能手机、头显上的应用。
虽然高斯泼溅的效率惊人,但作为一种非常新的技术,其也存在很多的问题和挑战。高斯泼溅用高斯球来表达场景中的每个点,每个高斯球叠加颜色、透明度等信息,通过类似体渲染的方式得到真实的效果。但将图像放大后就能发现,这些球之间存在缝隙,并且高斯泼溅不容易表达细致的结构,也不容易对物体变形。
为了解决这些问题,便基于网格来定义一种新表征,结合高斯球和网格的各自优势,得到名为高斯网的新建模方式。
基于高斯网的交互式变形方法
论文:Mesh-based Gaussian Splatting for Real-time Large-scale Deformation, ACM Transactions on Graphics (SIGGRAPH ASIA 2024)
高斯球方法之所以很难直接变形,是因为高斯球的大小没有严格的限制,最终生成的高斯球往往大小不一,一旦对场景变形,这些不一致的球就会在图像上产生毛刺和瑕疵。而高斯网的核心思想是对高斯施加几何约束,使其较为规律地分布在场景中。
在这种方法中,高斯会沿着物体的真实几何形状分布在其表面上,且每个高斯都放在物体三角网格的一个面片内。这里的高斯也比较薄,最终渲染结果中的颜色分布会很真实,不容易出现过拟合。为了重建毛发等内容,高斯也可以有灵活度,可以沿着法向分布。该方法使用的场景网格直接用 NeRF 来重建,网格本身作为初始化定义来承载高斯的分布。
因为基于网格的变形方法非常成熟,所以高斯网可以直接复用这些成熟方法,实现非常自然的物体变形效果。
高斯网的每个三角形都有局部坐标系,可以对三角形变形得到其仿射变换矩阵,即变形梯度。这一梯度可以直接迁移到高斯中,对高斯球参数进行更新,得到变形后的高斯球。通过这种混合表示就可以实现大尺度的物体变形。以下图为例,对一个 3D 物体进行编辑操作后,高斯网方法依旧可以保持很准确的细节呈现:
对图中鹿的 3D 模型进行变形操作时,高斯网可以复用网格变形领域常见的动物变形数据集,轻松驱动这类动物的变形过程。
3D 重建方法的发展现状
在 3D 重建用途方面,高斯泼溅的能力整体是弱于 NeRF 的。因为高斯泼溅与 NeRF 均需要额外步骤来得到网格,而 NeRF 本身是连续的,可以引入 SDF(符号距离函数),利用 SDF 固有的良好性质来实现高精度重建(误差约 1.1mm)。而高斯泼溅的属性是离散的,很难获得精确网格(误差约 6.5mm)。
基于 SDF 的 NeRF 方法可以重建水密模型,但其问题是无法处理开放曲面,例如植物叶片、纸张、衣物等没有可视化厚度的物体。针对这一问题,团队又提出了一种名为 NeUDF 的新方法。
重建复杂拓扑的 NeUDF 方法
论文:NeUDF: Learning Neural Unsigned Distance Fields with Volume Rendering, IEEE TPAMI 2024
NeUDF 方法的核心是将 SDF 的值,通过一个可微函数映射到神经辐射场的密度值上,从而得到 SDF 的表达式。即当一个点在表面时,距离函数的值为零;当一个点在外面时,距离函数的值大于零;当一个点在里面时,距离函数的值小于零。
但 SDF 只能表达闭合曲面,为了表达开放曲面,可以给 SDF 取绝对值,将 SDF 到权重的函数改为 UDF 到权重的函数,从而得到 UDF 场。
这个函数的设计思路是权重的全局积分唯一,且物体表面的权重值是最大的。同时,当物体有多个表面时,光线碰触到的第一个表面的权重值最大,利用这个权重函数就可以重建开放复杂曲面。经过实验发现,与德国马普所的 NeuS 方法(NeurIPS 2021)对比,NeUDF 方法重建的网格与真值的平均欧式距离减少了 70%。
在 3D 物体重建领域,一项更大的挑战是对矿泉水瓶这样的嵌套透明物体的重建。例如,从真实世界照片中重建 3D 场景时,往往会遗漏透明瓶身这样的物体。当前已有的解决方法有三种,一种是手工标记物体的 mask,需要提供光照信息,过程较为繁琐;第二种方法需要特殊的背景和设备来捕捉透明物体,成本很高;第三种方法需要物体放置在完美的平面上,条件较为苛刻。
针对上述挑战,团队又提出了一种名为 NU-NeRF的新方法。
嵌套透明物体重建方法:NU-NeRF
论文:NU-NeRF: Neural Reconstruction of Nested Transparent Objects with Uncontrolled Capture Environment, ACM Transitions on Graphics (SIGGRAPH ASIA 2024)
由于观察物体的视角变化,折射效果的变化非常剧烈,很难预测,所以透明物体重建过程中的难点在于物体对场景光的折射效应。
NU-NeRF 方法利用神经网络来预测折射的渲染效果,将物体外观分为反射和折射两部分分开建模。重建分为两个步骤,首先,给定对物体进行 360 度全角度拍摄的视频或图像序列,用神经网络预测折射颜色,得到物体的外层几何表面。然后用该表面结合折射定律和光线追踪等方法来计算光线的精确折射过程,帮助重建物体的内层几何表面。
某些透明物体(如玻璃杯)的透明材质是存在厚度的,光线经过时会发生二次折射,且两次折射的法向不同。对此,解决方法是制作一个统一模型,假设物体的透明壁都有厚度,并通过神经网络学习并预测折射处的厚度,利用该厚度进行折射的计算。经过实验发现,NU-NeRF 方法可以很好地生成诸如“放置冰块、饮料和透明吸管的玻璃杯”“不规则形状装水透明塑料瓶”“罩在透明玻璃罩内的雕像”等复杂场景。
基于线稿的三维模型生成方法:SketchDream
在 3D 内容生成应用方面,基于手绘线稿生成复杂三维几何图形是热门方法,但手绘线稿提供的信息往往很少,存在很大歧义。因此,直接用线稿生成各个视角的 3D 模型很难有较好的效果。基于此,团队提出了一种名为 SketchDream 的新方法。
论文:SketchDream: Sketch-based Text-to-3D Generation and Editing, ACM TOG/SIGGRAPH 2024.eam
该方法首先训练一个扩散模型,由线稿得到一张深度图。之后将深度图与线稿叠加,得到不同视角且较为准确的线稿变换图像。基于这些新视角的图像再生成彩色版本,继续做蒸馏就可以得到较为稳健的 3D 结果。
另一方面,该方法会在图像中添加 mask,有 mask 的位置才可以进行优化以实现局部编辑。通过这种方法再结合文本描述,就可以生成比较准确的 3D 模型。这里利用文本来描述物体材质,利用线稿来描绘物体的大致形状,生成的模型还可以编辑,改动局部的形态:
NeRF 生成复杂拓扑:DreamUDF
使用 AIGC 方法对图像重建 3D 内容时,可以将重建过程视为带约束的生成过程。但基于 NeRF 的重建方法生成的几何表面都是闭合的,为了表达衣服、伞、花瓣、牛仔裤这类开放曲线,就可以利用前文提到的 UDF 重建方法,团队将这种生成方法命名为 DreamUDF。
论文:DreamUDF: Generating Unsigned Distance Fields from A Single Image, ACM TOG (SIGGRAPH ASIA 2024)
该方法首先通过大模型将给定的图像生成不同视角,蒸馏出三维模型的 NeRF 表达,将其输入 NeUDF 做开放曲面重建,得到 UDF 场,并渲染出新的图像;其次,将新图像输入大模型进行增强,增强的结果再回到 UDF 场中重建。通过这一迭代过程就可以生成高质量的开放曲面图像。
作者介绍
高林,中国科学院计算技术研究所研究员、博士生导师、中国科学院大学岗位教授。发表高水平论文100余篇。其入选国家优青、英国皇家学会牛顿高级学者,获得亚洲图形学会青年学者奖、CCF技术发明一等奖等奖励。