前馈3D高斯泼溅新方法，浙大团队提出“体素对齐”，直接在三维空间融合多视角2D信息

量子位·2025年09月29日 15:21

解决前馈重建两大瓶颈

在三维重建不断走向工程化的今天，前馈式3D Gaussian Splatting（Feed-Forward 3DGS）正火速走向产业化。

然而，现有的前馈3DGS方法主要采用“像素对齐”（pixel-aligned）策略——即将每个2D像素单独映射到一个或多个3D高斯上。

这一做法看似直观，但仍面临两道不可忽视的“天花板”：二维特征难以在三维中精确对齐、以及高斯基元数量被像素网格死死绑定，无法按场景复杂度智能分配。

VolSplat大胆抛弃像素对齐的固有范式，提出“体素对齐”（voxel-aligned）的前馈框架：在三维空间中融合视图信息，从根本上破局，让高质量的多视角渲染变得更鲁棒、更高效、更易工程化。

在公开数据集上的对比实验显示，VolSplat在RealEstate10K和ScanNet（室内）数据集上的视觉质量与几何一致性上均优于多种pixel-aligned baseline。这些数值既说明了视觉质量的提升，也反映了几何一致性的增强。

VolSplat 的核心思路：把“对齐”从二维搬到三维

原有的像素对齐前馈3DGS ，正面临两项无法回避的痛点。

第一，多视图对齐难题：基于2D特征的匹配难以可靠地解决多视角间的几何一致性问题——当深度估计不稳、遮挡或视角差异出现时，2D特征难以在三维空间里精确对齐，常导致浮空伪影与几何畸变。

第二，高斯密度受限：Gaussian的生成往往被像素网格所束缚，无法根据场景复杂度进行自适应分配；往往导致复杂结构表达不足，而平坦或冗余区域却消耗了大量表示容量。

综合来看，这两点直接阻碍了前馈3DGS在稠密视角、复杂结构与大场景下的扩展与稳健表现。

为了突破这两项挑战，VolSplat的核心思路直截了当却极具穿透力：不再在二维像素层面孤立预测，而是将多视角的二维特征利用每视图预测的深度图反投影并聚合到统一的三维体素网格（voxel grid）中，在这个统一坐标系里进行聚合与多尺度特征融合与细化（refine）（采用稀疏 3D U-Net实现），最好仅在那些被占据的体素上回归Gaussian参数。

这一范式的效果即时且深远：在3D网格内，视图间的不一致被天然消融；高斯密度不再被像素网格绑架，而是基于体素的“有无”和复杂度动态分配。这一范式带来的直接好处可以概括为四点：

（1） 跨视图一致性显著增强：不再完全依赖易错的2D特征匹配，信息在三维空间中融合，更稳定。

（2）高斯密度按需分配：根据场景复杂度动态分配高斯数量，复杂结构处高密度、平坦区域低密度，实现更精细且节省资源的表示。

（3）几何一致性更强：体素聚合与3D U-Net的多尺度细化有效减少“浮点”和伪影，细节与边界更清晰。

（4）易与外部3D信号融合：深度图、点云等3D信号可自然融入体素化流程，无需复杂投影操作。

为便于工程实现与扩展，VolSplat 将整体pipeline拆解为三个清晰模块：2D特征与深度估计、像素→体素的lifting与聚合、以及体素级的特征refine与Gaussian回归。每个模块各司其职，彼此衔接，既利于分步调试，也方便在工程上作伸缩与优化。

第一步——2D 特征提取与深度估计（Feature extraction & Depth prediction）

对每张输入图像，VolSplat使用共享的图像编码器（结合卷积与 Transformer 层）提取下采样的二维特征，并基于plane-sweep构建per-view cost volume，用以融合邻近视图信息并回归每视图的稠密深度图。该阶段为后续的像素到三维点的反投影（lifting）提供必要的几何先验与特征描述。

第二步——像素反投影到体素并进行特征聚合（Lifting + Voxelization）

将每个像素依据其预测深度反投影到世界坐标，得到带有图像特征的三维点云，随后把这些点按预设体素大小离散化（voxelization），对落入同一体素的点的特征做聚合得到初始voxel feature，这一步把来自不同视角的特征在3D空间里自然对齐，便于后续体素级处理。

第三步——稀疏3D U-Net细化与基于体素的Gaussian回归（Sparse 3D refinement+Gaussian prediction）

将初始voxel features输入稀疏3D U-Net解码器，该网络以残差形式预测每个体素的修正项，从而实现多尺度的局部与全局几何上下文融合，这种残差更新有助于网络只学习必要的几何细化而非重建全部特征，既稳健又高效。

随后，仅在被占据的体素上回归每个Gaussian的参数（位置偏移、协方差、不透明度与颜色系数）。最终使用Gaussian Splatting渲染novel views，并以像素级与感知损失进行端到端训练。

实验亮点：效果、泛化全面领先

除上述效果外，尤其令人瞩目的是VolSplat跨数据集的零样本泛化能力，在未见过的ACID数据集上，VolSplat依然保持高性能（PSNR 32.65dB），展现出强劲的泛化能力。

定性结果更直观，在边缘、细节和复杂几何处，VolSplat展现出更少的浮空伪影、纹理错位与几何畸变，Gaussians在3D空间上的分布也更贴近真实场景的几何分布，而非被像素网格“均匀绑架”。这样的效果在实际产品体验（例如虚拟看房、室内漫游）中直接转化为更稳健、更自然的视觉体验。

VolSplat的提出并不是终点，而是提供了一种新的研究方向。它为前馈3D重建打开了全新的可能性。在机器人和自动驾驶中，提供更稳定的三维感知输入。在AR/VR中，实现更加流畅、真实的渲染体验。在三维视觉研究中，为统一的体素框架下融合多模态数据提供新途径。

未来，VolSplat可以作为前馈3D重建的一种新的探索方向，为相关的学术研究和工程应用提供参考。

论文链接：https://arxiv.org/abs/2509.19297

项目主页：https://lhmd.top/volsplat

本文来自微信公众号“量子位”，作者：VolSplat团队，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

前馈3D高斯泼溅新方法，浙大团队提出“体素对齐”，直接在三维空间融合多视角2D信息

VolSplat 的核心思路：把“对齐”从二维搬到三维

实验亮点：效果、泛化全面领先

最近内容

下一篇