谷歌DeepMind让普通图片秒变3D魔法工场

这项由谷歌DeepMind的陈佳诚、RaminMehran、夏旭辉、谢赛宁以及吴相贤领导的研究团队发表于2025年6月的arXiv预印本平台，论文编号为arXiv:2506.17450v2。有兴趣深入了解的读者可以通过论文项目页面访问更多演示和结果。

更令人惊叹的是，这个系统结合了两个看似完全不同的世界：专业3D建模软件Bler的精确控制能力，以及AI图像生成技术的逼真效果。这就像是把一位精通机械工程的工匠和一位天才画家完美结合在一起，工匠负责精确地调整每个零件的位置和角度，画家则负责让最终的作品看起来真实自然。

一、从平面照片到立体世界：神奇的"图层分离"技术

要理解BlerFusion的工作原理，我们可以把它想象成一个极其聪明的拆装专家。当你给它一张照片时，它做的第一件事就是把这张"平面画"拆解成一个个独立的"积木块"。

这个过程有点像考古学家在发掘古代遗迹时的工作。考古学家会小心翼翼地把每一层泥土、每一件文物都分离出来，记录它们的位置和关系。BlerFusion也是如此，它会识别照片中的每一个物体，然后把它们从背景中"挖掘"出来。

但是，仅仅知道物体的轮廓和深度还不够，BlerFusion还需要把这些2D信息转换成真正的3D模型。这个过程就像是一位雕塑家，根据一张素描来雕刻出立体的雕像。系统会分析每个物体的形状特征，然后构建出相应的3D网格模型。

举个例子，当系统看到照片中有一把椅子时，它不仅知道椅子在照片中的位置和大小，还能推断出椅子的3D形状：椅背的高度、座位的深度、椅腿的长度等等。更重要的是，它还能理解椅子与其他物体的空间关系：比如椅子是放在桌子旁边的，距离墙壁有多远，是否被其他物体部分遮挡等等。

值得一提的是，为了保证重建质量，系统还提供了一个可选的"高级重建"模式。在这种模式下，系统会调用更加先进的图像转3D模型的AI工具，比如Hunyuan3Dv2，来生成更加完整和精细的3D模型。这就像是在普通的素描基础上，再请一位专业的3D建模师来制作精密的数字模型。

一旦照片中的所有物体都被成功"搬运"到3D空间中，BlerFusion就会把它们导入到专业的3D建模软件Bler中。这就像是把现实世界中的物体传送到了一个虚拟的工作室里，在这里，你拥有了近乎无限的创作自由。

在这个虚拟工作室中，你可以像搭积木一样轻松地操作每一个物体。最基础的操作包括移动、旋转和缩放。比如，你可以把桌上的咖啡杯往左移动几厘米，让一本书绕着它的中心轴旋转45度，或者把整个台灯放大到原来的两倍大小。这些操作都会精确地反映物体在3D空间中的变化，而不是简单的2D图像变形。

物体的插入和移除也变得异常简单。想要在场景中添加一个新的物体？只需要在Bler中导入相应的3D模型，然后放置到合适的位置即可。想要移除某个物体？直接删除就行了，系统会自动处理被遮挡区域的背景重建。

相机控制是另一个强大的功能。你可以改变整个场景的观察角度，就像是拿着一台虚拟相机在房间里走动。想要从更高的角度俯视桌面？想要从侧面观察书架？或者想要拉近镜头突出某个特定物体？所有这些都可以通过简单的相机参数调整来实现。

三、化腐朽为神奇：生成式合成器的图像重建魔法

这时候，BlerFusion的第三个核心组件——生成式合成器就要登场了。这个组件就像是一位神奇的画家，能够把粗糙的3D渲染图转换成逼真的照片。

更令人印象深刻的是，这个系统还学会了处理遮挡关系。当一个物体被移动到另一个物体后面时，系统会自动处理前景物体对后景物体的遮挡效果。当一个物体被移除时，系统会智能地"猜测"并填补原本被遮挡的区域应该是什么样子。

四、超越传统方法：三大数据集验证系统实力

为了证明BlerFusion的实际效果，研究团队在三个不同类型的数据集上进行了全面的测试和比较。这就像是让一位新厨师在不同类型的餐厅里展示厨艺，看看他是否真的具备全面的烹饪技能。

在量化评估方面，研究团队使用了多个维度的指标。在图像质量方面，包括PSNR（峰值信噪比）、SSIM（结构相似性）、LPIPS（感知图像块相似性）和FID（Fréchet起始距离）等指标。在物体级别的评估中，还包括了物体级别的DINO特征余弦相似性等指标。

结果显示，BlerFusion在所有数据集上都显著优于基线方法。在MOVi-E数据集上，PSNR提升了约35%，SSIM提升了约100%，FID降低了约42%。在Objectron数据集上，物体级别的PSNR提升了约16%，DINO相似性提升了约4%。在Waymo数据集上，图像级别的PSNR提升了约4%，物体级别的PSNR提升了约24%。

BlerFusion的一个重要突破就是实现了真正的"解耦控制"。这意味着你可以独立地控制场景中的每一个元素，而不会对其他元素产生意外的影响。这种能力的实现主要依赖于前面提到的"模拟物体抖动"训练策略。

为了验证这种解耦控制的效果，研究团队设计了四种不同类型的控制任务。第一种是物体平移，即在保持相机位置不变的情况下移动物体的位置。第二种是物体旋转，让物体绕其中心轴旋转指定的角度。第三种是物体缩放，改变物体的大小而不影响其他属性。第四种是相机和物体的联合控制，同时改变观察视角和物体位置。

在物体平移测试中，BlerFusion能够精确地将物体移动到指定位置，同时保持物体的外观、朝向和大小不变，背景也保持稳定。这种控制精度是传统方法难以达到的。比如，在一个包含多个物体的桌面场景中，系统可以把一个咖啡杯精确地从桌子的左边移动到右边，而其他物体和背景都保持完全不变。

物体旋转测试展示了系统对3D几何理解的深度。当一个物体旋转时，不仅物体本身的外观会发生变化，其投射的阴影、与其他物体的遮挡关系、以及表面反射的光线都会相应调整。BlerFusion能够正确处理所有这些复杂的视觉效果，生成物理上合理的结果。

在物体缩放测试中，系统展现了对比例关系的准确把握。当一个物体被放大或缩小时，其细节特征会相应地调整，阴影的大小和形状也会改变，但颜色、材质等属性保持不变。这种处理方式符合人类对物理世界的直觉认知。

最具挑战性的是相机和物体的联合控制测试。在这种情况下，系统需要同时处理观察视角的变化和物体位置的变化，这要求对整个3D场景有深层的理解。BlerFusion在这个测试中也表现出色，能够生成视角和物体位置都正确的结果图像。

与基线方法的对比显示了BlerFusion在解耦控制方面的巨大优势。Object3DIT方法在几乎所有的解耦物体操作任务中都失败了，倾向于保持物体静止不动，这表明该方法中物体运动和相机运动之间存在严重的耦合。NeuralAssets方法虽然在解耦控制方面比3DIT有显著改进，但仍然存在两个主要问题：一是会丢失外观和几何细节，二是前景和背景之间会相互干扰。

在多物体空间重排任务中，BlerFusion展现出了令人印象深刻的场景理解能力。研究团队测试了将多个不同类型的物体（如鞋子、瓶子等）重新安排位置的任务。结果显示，NeuralAssets方法经常会出现空间变换错误，比如物体位置和姿态不准确，甚至会混淆不同物体的外观特征。这主要是因为该方法依赖的RoIAlign技术在处理相互接近的物体时容易出现混淆。而BlerFusion利用视觉基础模型进行精确的物体分割和重建，能够在Bler中进行准确的几何变换，因此在几何一致性和语义准确性方面都表现优异。

物体复制任务进一步考验了系统处理数量变化的能力。在一个包含8个杯子的复制任务中，NeuralAssets只能正确生成5个杯子，而且这些复制出来的物体在外观和形状上都出现了不希望看到的变化。BlerFusion则能够忠实地生成所有物体，同时完美保持每个物体的外观和几何特征。这种差异的根本原因在于，NeuralAssets在处理超出其训练分布的多物体场景时会出现困难，而BlerFusion通过在Bler中显式执行复制操作，绕过了这一限制。

物体重排和交换任务测试了系统对复杂空间关系的处理能力。在这类任务中，需要将场景中的多个物体进行位置交换，同时保持每个物体的原始外观和新位置的深度关系。NeuralAssets在执行这类操作时经常会丢失原始物体的外观特征，比如黑色椅子可能会消失或变色，而且无法保持正确的深度一致性。BlerFusion则能够完美保持物体外观的同时，正确处理自然的透视变化。

在Waymo数据集的多图像重组测试中，BlerFusion展现了对真实世界复杂场景的强大处理能力。系统能够从不同的街景图像中提取车辆，然后将它们重新组合到新的背景中。在这个过程中，系统会自动调整每个车辆的光照和阴影，使它们与新背景保持协调。虽然NeuralAssets也能产生可接受的结果，但在物体细节保持方面明显不如BlerFusion，这主要是由于DINO编码的高度有损性质导致的。

七、突破训练局限：从有限数据到无限创意

研究团队特意测试了系统在完全未见过的场景类型上的表现。他们将在Objectron数据集上训练的模型应用到SUN-RGBD、ARKitScenes和Hypersim等数据集的图像上。这些数据集包含的场景比Objectron复杂得多，有着更丰富的细节和更复杂的空间结构。Hypersim甚至是由专业设计师创建的高端合成数据集，视觉质量极高。

在处理新物体插入任务时，BlerFusion也展现出了超出预期的能力。虽然训练数据中可能没有包含某些特定类型的物体，但系统仍然能够成功地将这些物体集成到现有场景中。这是因为系统学会的是更加通用的空间关系理解和光照处理能力，而不是特定物体的特征。

另一个有趣的发现是，系统在处理非刚性变形时也表现良好。研究团队展示了对椅子进行部分级别控制和变形的例子，比如调整椅背的弯曲程度或改变座位的形状。这些操作在训练数据中是不存在的，但系统通过Bler的变形工具和生成式合成器的适应能力，仍然能够产生令人满意的结果。

八、深入技术内核：双流架构的巧妙设计

双流架构的设计灵感来自于人类处理视觉信息的方式。当我们看到一个场景发生变化时，大脑会同时处理"之前是什么样子"和"现在是什么样子"这两种信息，然后理解变化的本质和合理性。BlerFusion的双流架构模拟了这种认知过程。

这两个流的信息处理过程是并行进行的，但它们之间会通过注意力机制进行交互。这种交互让系统能够理解哪些部分发生了变化，哪些部分应该保持不变，以及如何将变化自然地融入到最终结果中。

为了让系统能够处理各种类型的输入信息，研究团队对基础的StableDiffusion模型进行了三个关键的架构修改。第一个修改是扩展输入通道数量，从原来的4个通道增加到15个通道。新增的通道用于处理Bler渲染图像、实例掩码和相机参数等额外信息。

第二个修改是设计了专门的相机参数编码方式。系统使用Plücker嵌入来表示相机参数，这是一种在3D计算机视觉中常用的技术，能够准确地描述相机的位置和方向。这种编码方式让系统能够精确理解不同视角之间的几何关系。

第三个修改是设计了特殊的文本令牌系统。不同于传统的文本描述，BlerFusion使用结构化的物体信息作为文本输入。每个物体用一个包含类别标签和3D位置信息的元组来表示，类别标签通过CLIP编码，3D边界框信息通过位置编码和多层感知机处理。

这种设计的优势在于，它为系统提供了准确的结构化信息，而不是模糊的文本描述。当系统看到"椅子+[x,y,z,w,h,d]"这样的输入时，它能够准确理解椅子的类型和精确位置，而不需要从模糊的文本中猜测意图。

针对第二个问题，研究团队开发了"模拟物体抖动"策略。在这种训练模式下，系统会保持相机位置不变，人为地让物体在不同位置之间移动，训练模型学会在固定视角下精确控制物体位置。这种策略有效地解耦了物体控制和相机控制，让系统在测试时能够独立地操作这两种变换。

九、严格验证与对比：科学实验证明系统优势

为了客观评估BlerFusion的性能，研究团队设计了全面的实验框架，从多个维度对系统进行了严格的测试和验证。这种评估方式就像是对一位新厨师进行全方位的技能考核，不仅要看他做出的菜品味道如何，还要考察制作过程的技巧、食材的利用率、时间效率等各个方面。

在Object3DIT的重新实现中，研究团队将原始方法中的Zero-1-to-3基础模型替换为，并添加了多物体控制能力。这使得该方法能够与BlerFusion在相同的技术基础上进行公平比较。NeuralAssets方法的重新实现则严格遵循了原始论文的描述，使用RoIAlign从DINO特征中提取物体外观，并通过MLP处理3D边界框信息。

评估指标的设计涵盖了图像质量和物体保真度两个关键维度。图像级别的评估包括PSNR（衡量像素级别的相似性）、SSIM（衡量结构相似性）、LPIPS（衡量感知相似性）和FID（衡量生成质量）。物体级别的评估则包括物体级别的PSNR、SSIM、LPIPS以及DINO特征余弦相似性等指标。

解耦控制测试是验证系统独立控制能力的关键实验。研究团队设计了四种不同的控制任务：物体平移、物体旋转、物体缩放，以及相机与物体的联合控制。在这些测试中，BlerFusion展现出了明显的优势，能够精确地执行指定的变换而不影响其他元素。

特别值得注意的是Object3DIT在解耦控制测试中的表现。该方法在几乎所有的解耦物体操作任务中都失败了，倾向于保持物体静止不动。这表明该方法存在严重的物体运动和相机运动耦合问题，无法独立控制这两种变换。

人类评估实验提供了更加直观的性能比较。24位用户对54个测试样例进行了盲测评估，结果显示BlerFusion在87.04%的情况下被认为优于基线方法。在复杂的精细合成任务中，这个比例更是高达93.75%。这些结果表明，BlerFusion的改进不仅在客观指标上有所体现，在主观感受上也得到了用户的认可。

十、技术创新的核心价值与未来展望

BlerFusion的成功不仅仅在于其技术实现的精巧，更在于它代表了一种全新的思路：将成熟的3D图形技术与前沿的AI生成技术有机结合。这种结合就像是将传统工匠的精确技艺与现代艺术家的创意表达完美融合，创造出了超越单一技术局限的全新可能。

这项研究的核心价值在于解决了长期困扰计算机视觉和图形学领域的一个关键问题：如何在保持生成图像真实性的同时，实现对复杂场景的精确控制。传统的方法往往在这两个目标之间存在权衡，要么控制精确但结果不够真实，要么结果真实但控制不够精确。BlerFusion通过巧妙的系统设计，同时实现了这两个目标。

训练策略的创新也是该研究的一个重要贡献。源遮罩和模拟物体抖动两种策略看似简单，但它们解决了训练数据与实际应用之间的关键差距。这种"数据增强"不是简单的图像变换，而是基于深度理解任务需求的智能策略设计。

这种技术的应用前景非常广阔。在电影和电视制作中，BlerFusion可以用于快速创建概念图和故事板，帮助导演和设计师快速试验不同的视觉方案。在游戏开发中，它可以用于快速生成游戏资产和场景原型。在广告和营销领域，它可以用于创建产品展示图和营销素材。在建筑和室内设计中，它可以用于可视化设计方案和客户沟通。

然而，该技术目前仍然存在一些局限性。研究团队诚实地指出了系统在某些情况下的不足，比如在处理复杂几何体的大角度旋转时可能出现的问题，以及在重建质量不佳时可能影响最终结果的情况。这些问题为未来的研究提供了明确的方向。

这项研究也为学术界提供了宝贵的经验和启示。它证明了将不同技术领域的成熟工具与前沿AI技术结合的巨大潜力，为其他研究者提供了新的思路和方法。同时，其严格的实验设计和全面的评估方法也为相关研究设立了新的标准。

说到底，BlerFusion不仅仅是一个技术创新，更是一个关于如何思考和解决复杂问题的范例。它告诉我们，面对看似不可能的技术挑战时，创新的解决方案往往来自于跨领域的思考和巧妙的系统设计。这种思维方式对于推动整个人工智能和计算机图形学领域的发展都具有重要意义。

归根结底，BlerFusion的成功在于它找到了一种优雅的方式来平衡控制精度和生成质量这两个看似矛盾的需求。通过将问题分解、专业化处理、智能融合，它创造了一个既强大又实用的工具。这种方法论的价值远超技术本身，为我们思考和解决其他复杂的AI问题提供了宝贵的参考。对于那些希望深入了解这项技术细节的读者，完整的论文和更多演示结果可以通过项目网站获取。

QA

Q3：普通人可以使用BlerFusion吗？有什么技术要求？A：目前BlerFusion还是研究阶段的技术，需要一定的技术背景和计算资源。用户需要了解Bler软件的基本操作，并具备相应的硬件配置。未来可能会有更加用户友好的商业化版本推出。

上一个 徐静蕾促成《风犬》与张一白合作，中二风格有争议但改不了

下一个 深圳首个！古树保护与社区治理融合微改造项目在光明启用

谷歌DeepMind让普通图片秒变3D魔法工场

相关阅读

友情链接