Thinking in Blender: Staged Executable Inverse Graphics with Vision-Language Models

TL;DR

提出SEIG框架，利用预训练视觉-语言模型（VLM）实现单图反向图形，逐步细化几何、材质、布局和光照，生成可编辑的Blender程序。

cs.CV 🔴 高级 2026-06-02 114 次浏览

Guangzhao He Rundong Luo Wei-Chiu Ma Hadar Averbuch-Elor

反向图形视觉-语言模型 3D重建程序生成分阶段优化

核心发现

方法论

本文提出的SEIG框架基于预训练的VLM，采用分阶段逐步细化的策略，从单一图像出发，依次重建场景的几何形状、材质、布局和光照。每个阶段由生成器和验证器组成，生成器输出Blender脚本，验证器通过渲染和评估指导下一轮优化。该流程避免了端到端优化的复杂性，充分利用VLM的语义理解能力。具体而言，首先通过场景图分解建立粗略场景骨架，然后依次进行几何、材质、布局和光照的细化，每个阶段都配备专门的验证机制，确保逐步逼近目标图像。整个流程在无需多视角监督或差异渲染的情况下实现高保真反向重建。实验中，采用NeRF合成数据集和真实场景图像，评估指标包括像素级（PSNR、SSIM）、感知（LPIPS、DreamSim）和语义（DINO、CLIP）相似度，结果显示分阶段策略显著优于单一端到端方法，重建的场景在几何、材质和布局方面都达到了较高的准确性。

关键结果

在NeRF合成数据集上，SEIG在PSNR达到13.58，LPIPS为0.3433，DreamSim为0.6293，DINO和CLIP的语义相似度分别为0.8446和0.8446，优于VIGA全流程（PSNR 12.48，LPIPS 0.6743，DreamSim 0.4466，语义指标0.7883）和VLM-only（PSNR 11.52，LPIPS 0.3847，DreamSim 0.5606），表明分阶段策略提升了重建质量。
在真实场景图像上，SEIG能有效恢复几何结构、材质细节和场景布局，支持多视角渲染、光照重配置和场景编辑，验证了其在实际应用中的潜力。
通过逐步验证机制，SEIG在不同场景中展现出较强的鲁棒性，尤其在复杂场景和遮挡条件下，能够保持较高的重建一致性，显示出优越的泛化能力。

研究意义

本研究突破了单图反向图形的瓶颈，首次实现了无需多视角监督、专用几何或材质模型的端到端可编辑场景重建。利用预训练VLM的语义理解能力，结合分阶段逐步优化策略，极大降低了复杂场景的重建难度，为未来自动化场景生成、虚拟现实、增强现实等应用提供了新的技术路径。这不仅丰富了逆向图形的研究体系，也推动了视觉理解与3D场景编辑的深度融合，具有重要的学术和产业价值。

技术贡献

本文提出的SEIG框架创新性地将预训练VLM应用于可执行逆向图形任务中，打破了传统依赖专用几何或材质模型的限制。通过设计分阶段逐步优化流程，有效降低了问题的复杂度，增强了模型的可解释性和可控性。引入的场景图分解、逐步细化策略以及每个阶段的生成器-验证器循环，为实现高质量单图反向重建提供了新思路。此外，利用Blender的Python接口实现场景的可编辑性，支持后续的场景编辑、光照重配置和物理仿真，拓展了视觉-语言模型的应用边界。这些技术贡献为未来基于预训练模型的3D场景理解和生成提供了理论基础和工程实践方案。

新颖性

本研究的创新点在于首次将预训练的VLM直接用于单图反向图形任务，采用分阶段逐步细化策略，避免了端到端优化中的信息瓶颈和不稳定性。相较于现有的端到端神经场景重建方法（如NeRF、3D高斯喷洒等），本框架不依赖专用的几何或材质模型，而是充分利用VLM的语义理解能力，通过逐步验证机制确保每个场景因素的准确恢复。这种分阶段、逐步验证的设计，为实现高保真、可编辑的3D场景提供了全新的解决方案，是该领域的一次重要突破。

局限性

尽管SEIG在多种场景下表现优异，但在极度复杂或遮挡严重的场景中，重建的几何和材质仍存在一定偏差，主要原因是VLM的空间理解能力有限，难以捕捉细节。
当前方法在处理高复杂度场景时，计算成本较高，尤其是在多轮验证和逐步优化过程中，存在较大的时间开销，限制了实时应用的可能性。
模型对输入图像的质量和视角依赖较大，若输入图像存在较大噪声或遮挡，重建效果会明显下降，未来需增强模型的鲁棒性。

未来方向

未来的研究方向包括引入多模态信息（如深度图、语义标签）以提升场景理解的准确性，探索更高效的优化策略以降低计算成本，以及结合强化学习优化逐步细化的流程。此外，扩展到动态场景和多视角输入，将使SEIG在虚拟现实、机器人导航等领域的应用更加广泛。还可以结合生成对抗网络（GAN）或扩散模型，进一步提升重建的细节丰富度和真实感，推动逆向图形技术的产业化落地。

AI 总览摘要

在虚拟场景的自动重建与编辑领域，逆向图形一直是一个具有挑战性的研究方向。传统方法依赖多视角、多模态数据，或需要复杂的差异渲染技术，难以实现单图像的高质量重建。随着预训练视觉-语言模型（VLM）的崛起，研究者开始探索其在场景理解与生成中的潜力。本文提出的Staged Executable Inverse Graphics（SEIG）框架，正是基于这一背景，旨在用预训练VLM实现单图反向图形的突破。该框架借鉴人类艺术家逐步构建场景的流程，将复杂的重建任务拆解为几何、材质、布局和光照等多个阶段，每个阶段由生成器-验证器循环驱动，逐步逼近目标场景。通过在Blender中实现可编辑的场景脚本，SEIG不仅实现了高保真重建，还支持后续的场景编辑、光照重配置和物理仿真，极大拓展了视觉模型的应用空间。

实验结果显示，SEIG在多个公开数据集和真实场景中均优于现有端到端方法，尤其在像素、感知和语义层面都达到了较高的相似度指标。其分阶段策略有效缓解了单一优化带来的不稳定性，提升了重建的细节丰富度和场景一致性。这一技术创新不仅为逆向图形提供了新的解决方案，也为虚拟现实、增强现实、机器人导航等行业带来了潜在的变革。未来，结合多模态信息和强化学习，SEIG有望实现更高效、更鲁棒的场景重建，推动自动化场景理解与生成迈向新高度。

深度分析

研究背景

逆向图形作为计算机视觉与图形学的交叉研究领域，旨在从二维图像中恢复出三维场景结构。早期工作如Roberts的“Blocks World”提出了形状-分析-合成的思想，随后发展出基于分析-合成的逆渲染方法，试图从图像中恢复几何、光照和反射特性。近年来，神经场景表示（如NeRF、3D高斯喷洒）极大推动了场景重建的性能，但其结果多为潜在表示，难以直接编辑。与此同时，深度学习模型如深度神经网络开始尝试从单视图或稀疏视角恢复几何与材质，但仍受限于数据稀缺和模型泛化能力。近年来，视觉-语言模型（如OpenAI的GPT系列、Meta的LLaVA）展现出强大的语义理解和代码生成能力，为场景理解提供了新途径。相关工作如SceneCraft、LL3M、VDAWorld等，尝试将VLM用于场景生成与编辑，但多为基于文本或多模态输入，缺乏对单图反向重建的系统性解决方案。本文的创新在于利用VLM的语义理解能力，结合分阶段逐步优化策略，突破了端到端优化的瓶颈，推动了逆向图形技术的实用化。

核心问题

单图反向图形面临的核心挑战在于场景因素的高度耦合与不确定性。几何形状、材质、布局和光照等因素在二维图像中表现为模糊、遮挡或信息缺失，难以同时准确恢复。传统方法依赖多视角、多模态数据或复杂的差异渲染技术，成本高且难以扩展。单一图像的反向重建还受到模型空间理解能力不足的限制，尤其是在复杂场景和遮挡条件下，难以实现高保真、可编辑的场景重建。现有方法多采用端到端优化，容易陷入局部最优，且难以解释每个场景因素的恢复过程。解决这一问题的关键在于设计一种分阶段、可验证的重建流程，将复杂任务拆解为多个子任务，逐步逼近目标场景，从而提升重建的准确性和稳定性。

核心创新

本研究的核心创新在于提出分阶段逐步细化的逆向图形框架（SEIG），利用预训练VLM的语义理解能力，将场景重建拆解为几何、材质、布局和光照四个独立阶段。每个阶段由生成器输出Blender脚本，验证器通过渲染和评估指导下一轮优化，形成闭环。具体创新点包括：

�� 场景图分解：将场景拆解为层次化的图结构，确保每个子场景元素的完整性和可追溯性。
�� 阶段初始化：通过多样化采样选择最合理的场景骨架，避免局部最优。
�� 逐步细化：每个阶段专注于单一因素的优化，减少相互干扰，提高重建质量。
�� 生成器-验证器循环：多轮交互确保每个阶段达到预期效果，提升整体一致性。
�� Blender脚本可编辑性：保证重建场景的后续可操作性，支持多种应用场景。

方法详解

�� 场景图分解：利用VLM生成场景的层次化图结构，识别场景中的主要对象和关系，确保场景覆盖完整。
�� 场景初始化：从场景图出发，生成粗略的Blender场景骨架，设定基本几何和材质，随机采样多组候选方案，选择最优。
�� 几何阶段：逐个细化对象形状，采用局部变形、旋转、平移等操作，利用交互工具进行多轮优化，确保几何一致性。
�� 材质阶段：为每个对象赋予详细的材质参数，包括颜色、粗糙度、金属度等，利用Blender节点系统实现复杂材质。
�� 布局阶段：调整对象位置、尺度和旋转，匹配参考图像中的场景布局，支持多视角验证。
�� 光照阶段：优化光源参数，包括位置、强度、颜色，模拟真实光照效果，确保渲染与参考图像一致。
�� 每个阶段采用生成器-验证器循环：生成器输出Blender代码，渲染后由验证器评估差异，指导下一轮优化，最多轮次限制保证效率。

实验设计

采用NeRF合成数据集和真实场景图像，评估指标包括PSNR、SSIM、LPIPS、DreamSim、DINO和CLIP，覆盖像素、感知和语义层面。对比基线包括VIGA全流程和VLM-only版本，验证分阶段策略的有效性。在不同场景中，进行多轮验证和参数调优，确保模型鲁棒性。通过定量指标和视觉对比，展示重建的几何、材质和布局的精度提升。还进行了多视角渲染、光照重配置和场景编辑的实用性测试，验证场景的可操作性和一致性。

结果分析

SEIG在NeRF合成数据集上，PSNR达到13.58，LPIPS为0.3433，DreamSim为0.6293，DINO和CLIP的语义相似度均超过0.84，优于VIGA全流程（PSNR 12.48，LPIPS 0.6743）和VLM-only（PSNR 11.52，LPIPS 0.3847），显示出显著的性能提升。多视角渲染验证了几何和材质的准确性，支持场景的编辑和光照重配置，显示出良好的实用性。分阶段优化策略在复杂场景中表现出更强的鲁棒性，减少了错误累积，提升了整体一致性和细节还原度。这些结果验证了方法的有效性和广泛适应性。

应用场景

该技术可广泛应用于虚拟现实内容生成、游戏场景设计、影视特效制作和工业仿真。用户只需提供单一场景图像，即可自动生成完整的可编辑3D场景，支持多视角浏览、光照调节和物理仿真，极大提升内容创作效率。未来，结合实时交互和多模态输入，有望实现自动化的场景生成和个性化定制，推动虚拟环境的普及与产业升级。

局限与展望

目前方法在极端复杂或遮挡严重的场景中，重建的几何和材质仍存在偏差，主要受限于VLM的空间理解能力。计算成本较高，逐步验证流程耗时较长，限制了实时应用。此外，模型对输入图像质量敏感，噪声或遮挡会影响重建效果。未来需提升模型鲁棒性，优化算法效率，并扩展到动态场景和多视角输入，以实现更广泛的应用和更高的性能。

通俗解读非专业人士也能看懂

想象你在画一幅复杂的画作，但你只有一张照片作为参考。传统上，要把这张照片变成一幅三维的模型，像用黏土塑形一样，非常费时费力。现在，这个新方法就像有一个聪明的助手，他可以根据你的照片，逐步帮你搭建出这个场景的三维模型。首先，他会用简单的几何块（比如球、立方体）搭出大致的轮廓，然后逐步调整这些块的形状，使它们更像照片中的物体。接着，他会给这些物体涂上合适的颜色和材质，让它们看起来更真实。最后，他会调整场景中的光线，让整个画面看起来更自然。这个助手还能反复检查自己的工作，确保每一步都做得不错。最终，你得到的就是一个可以在电脑里自由操作、修改的三维场景，就像用虚拟的黏土一样，随时可以重新摆弄。这种方法就像是用智能帮手，帮你把一张照片变成一个完整的3D模型，省时又方便。

简单解释像给14岁少年讲一样

想象你在玩一个超级厉害的游戏，但你只用一张照片就能建造出里面的房子和人物。以前，要做到这一点很难，因为你需要很多照片和复杂的工具。现在，有个聪明的机器人助手，它可以看一张照片，然后一步步帮你搭建出一个三维的场景。它会先用一些简单的几何形状，比如球和方块，搭出大致的轮廓，然后慢慢调整这些形状，让它们看起来更像照片中的东西。接着，它会给这些物体涂上颜色和材质，让它们变得更真实。最后，它会调节光线，让整个场景看起来像在真实的世界里一样。这个助手还会不断检查自己的工作，确保每一步都做得不错。这样，你就可以用一张照片，轻松得到一个可以在电脑里自由操作的3D场景，就像用魔法一样简单！这就像你用积木搭房子，只不过这个积木是由智能机器人帮你拼出来的，非常酷！

术语表

Inverse Graphics（逆向图形）

从二维图像恢复出三维场景的技术，旨在理解和重建场景的结构和属性。技术上涉及几何、材质和光照的推断。

论文的核心目标是实现单图反向图形重建。

Vision-Language Model（视觉-语言模型）

预训练的深度学习模型，能理解图像和文本的语义关系，支持代码生成和推理。

本文利用VLM进行场景理解和脚本生成。

Blender

一款开源的3D建模和渲染软件，支持Python脚本操作，适合场景编辑和渲染。

用作场景重建和编辑的引擎。

分阶段策略（Staged Approach）

将复杂任务拆解为多个相互依赖的子任务，逐步完成以提升效果和稳定性。

本文采用逐步细化场景的分阶段流程。

生成器-验证器循环（Generator-Verifier Loop）

在每个阶段反复生成场景脚本并验证效果，确保逐步逼近目标。

实现细节中的关键优化机制。

NeRF（神经辐射场）

一种神经场景表示方法，用于高质量的3D重建和渲染。

作为对比基线数据集。

LPIPS（感知相似度指标）

衡量两幅图像感知差异的指标，值越低表示越相似。

用于评估重建图像的感知质量。

DreamSim

一种学习感知相似度的指标，结合深度特征进行图像匹配。

评估模型的感知一致性。

DINO（Self-supervised Vision Transformer）

自监督学习的视觉Transformer模型，用于提取图像特征。

用于语义相似度评估。

CLIP（Contrastive Language-Image Pretraining）

结合文本和图像的对比学习模型，用于跨模态相似度计算。

衡量场景语义一致性。

场景图（Scene Graph）

描述场景中对象、关系和属性的结构化表示。

用于场景分解和重建。

Blender脚本（Blender Script）

用Python编写的场景操作代码，实现场景建模和渲染。

作为重建输出的可编辑场景表示。

逐步细化（Progressive Refinement）

逐阶段优化场景因素，逐步逼近目标效果。

核心策略之一。

多轮验证（Multi-round Verification）

在每个阶段多次生成和评估，确保质量逐步提升。

提升重建的准确性和稳定性。

开放问题这项研究留下的未解疑问

1 如何进一步提升VLM在复杂场景中的空间理解能力，尤其是在遮挡和细节丰富的情况下，仍是当前研究的瓶颈。未来应结合多模态信息（如深度、语义标签）和强化学习策略，探索更高效的优化方法，以实现实时或近实时的场景重建。此外，动态场景和多视角输入的扩展也是未来的重要方向，旨在满足实际应用中的多样需求。

应用场景

近期应用

虚拟场景快速生成

用户只需一张图片，即可自动生成完整的3D场景，支持多视角浏览和场景编辑，适用于游戏开发、虚拟现实内容制作。

场景重建与编辑工具

为设计师提供基于单图像的场景重建平台，简化传统繁琐的建模流程，提升工作效率。

增强现实内容制作

结合SEIG实现AR场景的快速重建和光照调节，增强虚拟内容的真实感和互动性。

远期愿景

自动化虚拟环境生成

未来可实现从多模态输入自动生成复杂、动态的虚拟环境，应用于影视、培训和仿真。

智能场景理解与交互

结合强化学习和多模态信息，打造具有自主理解和交互能力的虚拟场景系统，推动智能机器人和虚拟助手的发展。

原文摘要

Inverse graphics is a longstanding and highly underconstrained problem that seeks to reconstruct images as editable 3D scenes which can be rendered, relit, and manipulated. In this work, we investigate whether pretrained vision-language models (VLMs) can perform executable inverse graphics directly from a single image by reconstructing a scene as an editable Blender program, without relying on specialized 2D or 3D foundation models, differentiable rendering, or multi-view supervision. We introduce Staged Executable Inverse Graphics (SEIG), an agentic framework that reconstructs a 3D scene from a single image by progressively refining scene factors including geometry, materials, composition, and lighting directly in executable Blender code space. We evaluate our framework across diverse scenes using a range of reconstruction metrics spanning pixel-level, perceptual, and semantic fidelity. Our experiments show that staged reconstruction substantially improves reconstruction fidelity, highlighting the importance of task decomposition for executable inverse graphics with general-purpose VLMs. Finally, we showcase various downstream applications enabled by the reconstructed editable Blender scenes.

cs.CV

参考文献 (20)

Vision-as-Inverse-Graphics Agent via Interleaved Multimodal Reasoning

Shaofeng Yin, Jiaxin Ge, Z. Wang 等

2026 11 引用 ⭐ 高影响力查看解读 →

Non-rigid Point Cloud Registration with Neural Deformation Pyramid

Yang Li, Tatsuya Harada

2022 71 引用查看解读 →

MeshCoder: LLM-Powered Structured Mesh Code Generation from Point Clouds

Bingquan Dai, L. Luo, Qihong Tang 等

2025 10 引用查看解读 →

SAM 3D: 3Dfy Anything in Images

S. Team, Xingyu Chen, Fu-Jen Chu 等

2025 116 引用查看解读 →

Volumetric Disentanglement for 3D Scene Manipulation

Sagie Benaim, Frederik Warburg, Peter Ebert Christensen 等

2022 16 引用查看解读 →

VoxHammer: Training-Free Precise and Coherent 3D Editing in Native 3D Space

Lin Li, Zehuan Huang, Hao-li Feng 等

2025 32 引用查看解读 →

NeRF: Representing scenes as neural radiance ﬁelds for view synthesis

B. Mildenhall, Google Research, P. Srinivasan 等

2881 引用

Differentiable Blocks World: Qualitative 3D Decomposition by Rendering Primitives

Tom Monnier, J. Austin, Angjoo Kanazawa 等

2023 43 引用查看解读 →

IR3D-Bench: Evaluating Vision-Language Model Scene Understanding as Agentic Inverse Rendering

Parker Liu, Chenxin Li, Zhengxin Li 等

2025 13 引用查看解读 →

Machine Perception of Three-Dimensional Solids

L. Roberts

1963 2038 引用

The Scene Language: Representing Scenes with Programs, Words, and Embeddings

Yunzhi Zhang, Zizhang Li, Matt Zhou 等

2024 28 引用查看解读 →

Articulate-Anything: Automatic Modeling of Articulated Objects via a Vision-Language Foundation Model

Long Le, Jason Xie, William Liang 等

2024 83 引用查看解读 →

3DAxiesPrompts: Unleashing the 3D Spatial Task Capabilities of GPT-4V

Dingning Liu, Xiaomeng Dong, Renrui Zhang 等

2023 20 引用查看解读 →

Learning Object-Compositional Neural Radiance Field for Editable Scene Rendering

Bangbang Yang, Yinda Zhang, Yinghao Xu 等

2021 307 引用查看解读 →

Deep 3D Capture: Geometry and Reflectance From Sparse Multi-View Images

Sai Bi, Zexiang Xu, Kalyan Sunkavalli 等

2020 106 引用查看解读 →

CSGNet: Neural Shape Parser for Constructive Solid Geometry

Gopal Sharma, Rishabh Goyal, Difan Liu 等

2017 222 引用查看解读 →

Learning Transferable Visual Models From Natural Language Supervision

Alec Radford, Jong Wook Kim, Chris Hallacy 等

2021 49552 引用查看解读 →

Extracting Triangular 3D Models, Materials, and Lighting From Images

Jacob Munkberg, J. Hasselgren, Tianchang Shen 等

2021 494 引用查看解读 →

GS-IR: 3D Gaussian Splatting for Inverse Rendering

Zhihao Liang, Qi Zhang, Yingfa Feng 等

2023 247 引用查看解读 →

Learning to reconstruct shape and spatially-varying reflectance from a single image

Zhengqin Li, Zexiang Xu, R. Ramamoorthi 等

2018 320 引用

Thinking in Blender: Staged Executable Inverse Graphics with Vision-Language Models

核心发现

方法论

关键结果

研究意义

技术贡献

新颖性

局限性

未来方向

AI 总览摘要

深度分析

研究背景

核心问题

核心创新

方法详解

实验设计

结果分析

应用场景

局限与展望

通俗解读 非专业人士也能看懂

简单解释 像给14岁少年讲一样

术语表

Inverse Graphics（逆向图形）

Vision-Language Model（视觉-语言模型）

Blender

分阶段策略（Staged Approach）

生成器-验证器循环（Generator-Verifier Loop）

NeRF（神经辐射场）

LPIPS（感知相似度指标）

DreamSim

DINO（Self-supervised Vision Transformer）

CLIP（Contrastive Language-Image Pretraining）

场景图（Scene Graph）

Blender脚本（Blender Script）

逐步细化（Progressive Refinement）

多轮验证（Multi-round Verification）

开放问题 这项研究留下的未解疑问

应用场景

近期应用

虚拟场景快速生成

场景重建与编辑工具

增强现实内容制作

远期愿景

自动化虚拟环境生成

智能场景理解与交互

原文摘要

参考文献 (20)

相关论文

JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

UNIEGO: Proxies as Mediators for Unified Egocentric Video Representation Learning

SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

CalTennis: Large Multi-View Tennis Video Dataset and Benchmark of Monocular-to-3D Pose Estimation

Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

EventDrive: Event Cameras for Vision-Language Driving Intelligence

通俗解读非专业人士也能看懂

简单解释像给14岁少年讲一样

开放问题这项研究留下的未解疑问