合作机构:阿里云 / 腾讯云 / 亚马逊云 / DreamHost / NameSilo / INWX / GODADDY / 百度统计
无需任何训练数据,只需对着模型描述一句话,如「一个做作业的香蕉人」:
或是「一只戴着 VR 眼镜的猫」:
就能生成符合描述的带有高质量纹理贴图的 3D 场景。不仅如此,还能对已有的 3D 模型进行精细化贴图。
这是港大与清华大学联合 3D 生成明星公司 VAST AI 研发的一种新方法,它能够从复杂的文本描述中,直接生成富有想象力的高质量 3D 模型。
目前,这项研究成果已被人工智能顶级会议 ICLR 2024 收录,代码也已经开源。对这项研究感兴趣的小伙伴,可以戳下方项目主页和论文地址查看。
所以它究竟是如何做到的?在了解新方法是什么之前,我们先来了解目前已有的方法存在什么问题。
在交互式游戏、电影艺术、增强 / 虚拟现实以及仿真技术等多个应用场景中,高质量的三维资产创建一直是一个重要且具有挑战性的问题。
目前大多数生成模型都依赖于本领域的大量高质量数据做训练,但在 3D 领域,这样的数据集非常匮乏。这导致目前基于 3D 数据训练的 3D 生成模型的效果还无法复刻图像领域的成功。
为了解决这一问题,Google 的 Dream Fusion 首次提出 Score Distillation Sampling(SDS)的方法,证明了可以通过预训练的二维扩散模型生成高质量和复杂的三维结果。这一范式的优势在于无需任何 3D 数据预训练即可生成 3D 模型,这一架构也一直被研究者们和后续工作所沿用,例如 Nvidia 的 Magic3D 等。其核心理论在于通过激励其渲染图像移向文本条件下的高概率密度区域,来反向生成 3d 场景。
尽管基于 SDS 的方法取得了令人瞩目的成果,然而,本文的研究者们发现,基于 SDS 的方法在实际实现中总是与理论出现一些差距,主要是因为普遍依赖于 Classifier-Free Guidance (CFG)。
在使用 CFG 时,推动优化的梯度实际上包含两个部分:一是数据密度的梯度,二是后验函数的梯度。其中前者对应于 SDS 理论中的关键部分,而后者仅仅是在实验过程中才加入的辅助手段。
这篇论文的核心贡献,在于重新评估了 SDS 中 CFG 的角色,发现 CFG 不仅仅是辅助手段,恰恰相反,它才是文本到三维生成中的关键驱动。由于这一部分可以被解释为一个隐式的分类模型,研究者们将这一新范式命名为分类器分数蒸馏(Classifier Score Distillation, CSD)。
这一发现从根本上改变了我们对基于分数蒸馏成功的文本到三维生成机制的理解。具体而言,其有效性来自于从隐式分类器中提炼知识,而不是依赖于生成先验。
CSD 的引入使得我们能够重新审视现有技术设计选择。例如,研究者们展示了负面提示可以被视为负分类器分数,从而制定了一个渐进式的负分类器分数优化策略,这增强了生成质量,同时保持了与提示的结果忠实度。
此外,研究还揭示了利用分类器分数进行高效的基于文本驱动的三维编辑的可能性,以及将变分分数蒸馏技术 (Variational Score Distillation) 视为一种自适应性的负分类器分数优化形式。
CSD 不仅在理论上对文本到三维生成领域提供了新的视角,而且在实际应用中也表现出优越的性能。
在主要的 3D 生成任务上的实验结果显示,在文本对齐和视觉质量方面,该方法相较于 Dream Fusion、Magic3D、Fantasia3D 等现有技术有显著提升,生成的纹理也真实丰富。
在速度上,CSD 在单个 A800 GPU 上只需 1 小时即可完成任务,而能达到同样视觉效果的 Prolific Dreamer 方法则需要长达 8 小时。这一显著的速度优势,加上其出色的生成质量,证明了 CSD 技术的高效性和实用性。
此外,定量评估中采用的 CLIP R-Precision 指标进一步证实了 CSD 的优越性。用户研究也显示 59.4% 的参与者更倾向于选择 CSD 生成的结果。
实验部分还对比了 CSD 在纹理生成这一任务上的能力,与多个方法进行比较,实验结果显示无论从效果还是用户研究中都优于其他方法。
此外,研究者们还展示了如何利用 CSD 对现有的 3D 场景进行编辑,如下图所示,你可以使用 CSD 将一个香蕉人编辑为一个黄瓜人,将模特身上的苔藓编辑为鲜花,而不损失其他部分。
总而言之,CSD 从理论出发,重新思考了目前 3D 生成的关键所在,重塑优化目标,最终在多个任务上显示出其优越性与强大的潜力。通过对这一新范式的深入探索和应用,我们能够更有效地从文本描述中生成高质量、高精度的三维内容,这对于三维内容创造领域的未来发展具有深远的影响。
TOP