中科院、阿里出品FF3D,创建自定义风格化3D人像只需三分钟

来源:机器之心

3D 人像合成一直是备受关注的 AIGC 领域。随着 NeRF 和 3D-aware GAN 的日益进步,合成高质量的 3D 人像已经不能够满足大家的期待,能够通过简单的方式自定义 3D 人像的风格属性成为了更高的目标,例如直接使用文本描述指导合成想要的 3D 人像风格。

但是 3D 人像的风格化存在一个普遍的问题,当一个高质量的 3D 人像合成模型训练好后(例如训练一个 EG3D 模型),后续往往很难对其进行较大的风格化改变。基于模型隐空间编辑的方法会受限于预训练 3D 人像合成模型的数据分布;直接对 3D 人像不同视角进行风格化会破坏 3D 一致性;自己收集创建一个风格化的多视角人像数据集成本很高。以上这些问题使得大家难以简单的创建风格化 3D 人像。

本文作者们提出一种简单高效的风格化 3D 人像合成方法,能够快速实现基于文本描述的自定义 3D 人像风格化。

cf14ce1d045e0c7ad26d8addf275dc48.png

  • 论文地址:https://arxiv.org/pdf/2306.15419.pdf

  • 项目网站:https://tianxiangma.github.io/FF3D/

Woodsculpture style

Mangastyle

Hulk

Cartoonishstyle ID1

Cartoonishstyle ID2 

Cartoonishstyle ID3

方法框架

该方法的核心步骤有两个:1. 小样本风格化人像数据集构建,2. Image-to-Triplane 模型微调。方法框架如下。

cde9bbdd628d525329f590ba6d6bf80d.png

使用两种先验模型构建小样本风格化人像数据集

人工收集多视角风格化人像数据是困难的,但是研究团队可以利用已有的预训练模型来间接构建这种数据。本文采用两个预训练先验模型 EG3D 和 Instruct-pix2pix (IP2P) 来实现这一目标。

EG3D 是一个高质量的 3D-aware GAN 方法用来提供多视角 3D 一致的人像合成结果,计作:f7c859f7dc417f1253d8c8bf2532bee9.png。theta 是模型的参数,w 是从 W 隐空间随机采样的向量编码,v 是人像的渲染方向。该研究随机采样一个 w,并从 - 30 度到 30 度的俯仰角和偏航角范围内均匀采样 i*i 个不同视角的人像。

IP2P 是一个文本引导的图像编辑大模型,该研究用其来对不同视角的人像进行风格化编辑,计作:45cd4be45961e13209e214032ae8fc9c.png。phi 是模型参数,I 代表输入的人像图像,n 是随机噪声,c 是文本的条件输入(后面使用 t 来表示)。借助 T ,研究团队可以将上述 i*i 个不同视角的人像进行文本引导的风格化编辑。同时,在实验中研究团队发现 IP2P 在一些文本提示下对于同一个人像的不同视角的风格化编辑结果存在较大的差异。因此该研究对其推理过程进行一些改进,将原始的噪声 n 替换为040be9ba366cd56d57d9da41d2d1ee86.png。该式表示将噪声 n 与输入人像 I 的信息进行加权融合,使得不同视角的人像 I 的风格化编辑结果趋紧相同。此外该研究又引入辅助文本提示 td 和消极文本提示 tn 来增强 IP2P 的生成质量,即新的文本提示为5f710d1938a1f8b72ce7b6906a3b7230.png

基于上述过程,该研究提出风格化人像合成 pipeline 为:a799a6ea64bf3c5dd133587c96c84d91.png。该过程为纯模型推理不需要额外的训练。对于 i*i 个不同视角的合成人像,研究团队可以快速构建出一个小样本风格化人像数据集 Ds。

Image-to-Triplane 模型微调

构建出 Ds 后,需要学习一个符合该数据集人像风格的的 3D 模型。针对这个问题,研究团队提出一个 Image-to-Triplane (I2T) 网络,它可以建立人像图像到 Triplane 表征到映射。研究将预训练的 EG3D 模型的 Triplane 合成网络替换为本文提出的的 I2T 网络,并复用剩余的渲染网络。

因为 Ds 数据集的不同视角风格化肖像是 3D 不一致的,所以首先需要对 I2T 网络进行预训练,来预先建立人像到 Triplane 表征的准确映射关系。研究团队利用 EG3D 的合成数据来预训练 I2T 网络,训练损失函数如下:

664bbd9a58ed9b79196964e7c5859fe6.png

H 代表 I2T 网络,If 为正视角人像图像输入(由 EG3D 采样提供),p 是 Triplane 表征的真值(也由 EG3D 采样提供)。

利用预训练的 I2T 网络,研究团队就可以在构建好的 Ds 数据集上进行快速微调,让 I2T 的隐空间拟合到 Ds 数据集风格分布。模型微调的损失函数包含重建损失和密度正则损失:

dec7a7791058911bce70a38f599da2a0.png

25baf700dac912046000591ef1f0116e.png

该模型微调是十分高效的,可以在 3 分钟左右完成。至此,就能够得到一个自定义风格(使用文本提示 t 指定)的 3D 人像模型。

实验

在本文的首页所展示的就是一系列高质量的风格化 3D 人像合成结果。为了验证本文方法的可扩展性,研究团队构建了一个多风格多身份人像数据集。他们利用 ChatGPT 生成 100 种不同风格类型的问题提示,包含艺术风格、电影角色风格、游戏角色风格、以及基础属性编辑风格。对于每种风格使用本文的人像风格化 pipeline 合成 10*10 张不同视角的风格化人像,进而构建出包含 10,000 张图像的多风格单身份人像数据集(MSSI)。此外,在 MSSI 的基础上扩展每种风格的身份属性,即随机采样不同的 w 向量,得到多风格多身份人像数据集(MSMI)。该方法在这两个数据集上的微调模型的 3D 人像合成结果如下:

5a0eac481ee17f9eb9b70c15135317f5.png

bbcf4125e41015863fdeeb5f6ccd94c1.png

在 I2T 的 ws 隐空间进行插值即可实现 3D 人像的风格变化:

45fcd3ee006a22c4ca58196594f0f6e9.png

该方法与 baseline 方法的对比结果如下:

b98605abb8d49ed55f3f33f70fc50ca4.png

更多的方法细节和实验结果请参考论文原文以及项目网站。

推荐阅读

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

3fd9570029de32479f6ea9e8ebb93921.jpeg

👆 长按识别,邀请您进群!

ed70213166b261aec6ec7853960d4888.gif

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值