ECCV 2024 | 3D数字人生成来了！南洋理工提出StructLDM：高质量可控3D生成并支持编辑。-工具盒子

三维数字人生成和编辑在数字孪生、元宇宙、游戏、全息通讯等领域有广泛应用。传统三维数字人制作往往费时耗力，近年来研究者提出基于三维生成对抗网络（3D GAN）从 2D 图像中学习三维数字人，极大提高了数字人制作效率。这些方法往往在一维隐向量空间建模数字人，而一维隐向量无法表征人体的几何结构和语义信息，因此限制了其生成质量和编辑能力。

针对此问题，南洋理工大学提出了结构化隐空间扩散模型（Structured Latent Diffusion Model）的三维数字人生成新范式 StructLDM，这是一种从 2D 图像集合中生成 3D 人体的新范式（与现有的 3D GAN 相比），具有 3 个关键设计：

结构化 2D 潜在空间；
结构化自动解码器；
结构化潜在扩散模型。

StructLDM 生成多样化的视图一致的人类，并支持不同级别的可控生成和编辑，例如通过混合从 a) 中选择的五个部分进行合成生成，以及部分感知编辑，例如身份交换、局部服装编辑、3D 虚拟试穿等。请注意，生成和编辑与服装无关，无需服装类型或面具。

论文阅读

StructLDM：用于 3D 人体生成的结构化潜在扩散

摘要

近期，3D 人体生成模型通过从 2D 图像中学习 3D 感知 GAN 取得了显著进展。然而，现有的 3D 人体生成方法在紧凑的一维潜在空间中对人体进行建模，忽略了人体拓扑的清晰结构和语义。在本文中，我们探索了用于 3D 人体建模的更具表现力和更高维度的潜在空间，并提出了 StructLDM，这是一种基于扩散的无条件 3D 人体生成模型，该模型是从 2D 图像中学习的。StructLDM 通过三个关键设计解决了由于潜在空间高维增长而带来的挑战：

在统计人体模板的稠密表面流形上定义的语义结构化潜在空间。
一种结构化的 3D 感知自动解码器，将全局潜在空间分解为几个语义身体部位，由一组锚定到身体模板的条件结构化局部 NeRF 参数化，它嵌入从 2D 训练数据中学习到的属性，可以解码以呈现不同姿势和服装风格下的视图一致的人类。
一种用于生成人体外观采样的结构化潜在扩散模型。

大量实验验证了 StructLDM 最先进的生成性能，并说明了结构化潜在空间相对于广为采用的 1D 潜在空间的表现力。值得注意的是，StructLDM 支持不同级别的可控 3D 人体生成和编辑，包括姿势/视图/形状控制，以及高级任务，包括构图生成、部分感知服装编辑、3D 虚拟试穿等。

方法

两阶段框架。 在第 1 阶段，给定一个包含各种人体主体图像的训练数据集，其中包含估计的 SMPL 和相机参数分布，学习自动解码器以优化每个训练主体的结构化潜在 z ∈ Z。结构化体积渲染器 G1 和全局风格混合器 (GM) G2 可以将每个潜在渲染成与姿势和视图相关的图像。

在第 2 阶段，冻结自动解码器参数，然后使用学习到的结构化潜在 Z 来训练潜在扩散模型。在推理时，潜在被随机采样并由 G2 ◦ G1 解码以进行人体渲染。

StructLDM 支持合成 3D 人体生成和部位感知编辑。从 a) 中选取六个身体部位，可以在 b) 中实现连贯的合成和混合结果。使用 Diff-Render 程序，部位感知编辑可以在 c) 中实现大量下游任务。

效果

在UBCFashion上的不同生成结果

渲染人的不同生成结果

创作生成

UBCFashion上的新颖视角合成

结论

我们提出了一种从 2D 图像集合生成 3D 人体的新范例。关键是结构化的 2D 潜在空间，它可以实现更好的人体建模和编辑。结构化自动解码器和潜在扩散模型用于嵌入和采样结构化潜在空间。在三个人体数据集上的实验展示了最先进的性能，定性生成和编辑结果进一步证明了结构化潜在空间的优势。

局限性。

我们从头开始训练模型，就像 EVA3D/AG3D/PrimDiff 一样。缺乏具有准确配准的多样化自然人体数据集是该领域的一个常见问题。由于规模有限和数据集偏差，多样性无法与 2D 扩散模型相比。然而，在多样性方面的表现优于基线 EVA3D 和 AG3D。
受自动解码器训练的限制，从单视图 2D 图像集合中学习具有挑战性。然而，结构化潜在表示使得从 DeepFashion 上的单幅图像中自动解码3D人体成为可能，生成具有合理几何重建的逼真人体图像。