推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

NeurIPS 2025 深度研究报告(11)|Computer Vision - 3D Rendering & Reconstruction

日期：2026-05-31 23:13:06 来源：网络整理作者：本站编辑评论：0

2025NEURIPS 2025 DEEP RESEARCH REPORT

COMPUTER VISION系列连载第 11 期

3D Rendering & Reconstruction

Computer Vision - 3D Rendering & Reconstruction

3D Rendering & Reconstruction

ABSTRACT

近期3D渲染与重建领域的研究呈现出多维度突破，核心聚焦于提升场景表示的鲁棒性、动态适应性与计算效率。基于3D高斯溅射（3DGS）的框架持续演进：针对非受控环境，LI et al., 2025^[1]提出非对称双高斯模型以抑制伪影；Liao et al., 2025^[2]与Wu et al., 2025^[3]分别引入事件相机信号，实现自由轨迹与极端光照下的动态重建。He et al., 2025^[4]通过元学习Phong模型实现分布外场景重光照，而Zhang et al., 2025^[5]则用可交换高斯表示平衡几何与外观。在几何重建方面，Li et al., 2025^[6]利用稀疏体素先验提升表面精度，Shin et al., 2025^[7]结合扩散先验与曲率匹配实现自适应重建。动态场景处理上，Xu et al., 2025^[8]提出4D高斯Transformer从单目视频学习时空场，Hu et al., 2025^[9]则专攻眼科手术中手-器械交互的精细重建。此外，Wang et al., 2025^[10]通过压缩光场令牌显著降低渲染计算成本，Kulhanek et al., 2025^[11]引入层级细节机制以支持大规模场景高效渲染。这些工作共同推动了从静态到动态、从实验室到真实世界、从单模态到多模态感知的范式跃迁。

01

从高斯原语到表面约束：3DGS的几何保真度与紧凑化演进

3D高斯泼溅(3DGS)凭借其显式表示与实时渲染优势，已成为场景重建的基座技术，但早期工作普遍面临几何不精确与存储开销大的问题。近期研究从多个维度对此进行改进。在几何对齐方面，Zhang et al., 2025^[5] 提出的EGGS通过可交换的2D/3D高斯表示，在视角合成中平衡了几何与外观的权重，使得高斯既能保持渲染质量又能输出更准确的表面。而 Li et al., 2025^[6] 的GeoSVR则另辟蹊径，利用稀疏体素引导高斯生长，从离散原语中提取连续曲面，显著提升了表面重建的几何精度。在存储与效率方面，Wang et al., 2025^[12] 将高斯裁剪建模为最优传输问题，通过“牧群”策略全局压缩冗余高斯，实现3-4个数量级的存储缩减，且不影响渲染质量。针对大规模场景，Kulhanek et al., 2025^[11] 提出的LODGE引入层级细节(Level-of-Detail)管理，根据视角距离动态调度高斯原语，在保持帧率的同时扩展了3DGS的适用尺度。此外，He et al., 2025^[4] 的MetaGS将元学习与Phong光照模型融合，使高斯表示具备对分布外光照的适应能力，间接提升了重光照场景下的几何一致性。这些工作共同表明，3DGS正从纯渲染利器向兼顾几何、紧凑性与鲁棒性的通用表示迈进，其核心在于为高斯原语注入更强的表面先验或结构化约束。

02

动态世界的时间维度：4D重建从多视同步到单目视频的突破

动态场景重建长期依赖多视角同步视频或已知时序信息，而近期研究正将其推向更灵活的单目视频输入。针对手术等复杂交互场景，Hu et al., 2025^[9] 聚焦手持器械与眼组织的动态重建，通过专门设计的运动分解模块实现了高精度4D重建。更进一步，Xu et al., 2025^[8] 提出的4DGT将4D高斯与Transformer架构结合，仅从单目视频学习时空高斯变换，避免了多视同步的严苛要求。对于极端动态或光照条件，事件相机提供了高速、高动态范围的替代输入。Liao et al., 2025^[2] 的EF-3DGS利用事件流辅助自由轨迹的高斯泼溅，在剧烈运动下仍能维持稳定的渲染质量；Wu et al., 2025^[3] 的EAG3R则直接从事件数据估计几何，在弱光或快速运动场景中表现出色。在参数优化层面，Li et al., 2025^[13] 提出仅用RGB图像监督动态场景中的相机参数优化，无需位姿标注即可实现一致的4D重建。这些工作揭示了一个趋势：动态重建正从“离线多视+强监督”转向“在线单目+弱/自监督”，其中事件相机与Transformer架构分别扮演了解决运动模糊和建模长时序依赖的关键角色。

03

先验驱动的稀疏视图重建：扩散模型、Transformer与多模态LLM的竞争与协同

从单视图或稀疏视图中恢复完整3D结构是极具挑战的逆问题，当前解决方案正围绕强大的生成先验展开激烈竞争。基于扩散模型的路线，Shin et al., 2025^[7] 通过前向曲率匹配似然更新，将扩散先验与几何似然结合，实现了自适应的稀疏视图重建，克服了传统方法对精确位姿的依赖。而Ye et al., 2025^[14] 的ShapeLLM-Omni则引入多模态大语言模型(LLM)，将文本、图像统一到3D生成与理解框架中，突破了纯视觉先验的语义瓶颈。在场景理解层面，Xu et al., 2025^[15]的SIU3R超越了特征对齐范式，同时进行场景语义解析与3D重建，使得重建结果不仅几何完整还具备语义一致性。Li et al., 2025^[16] 的Rig3R进一步引入刚体感知条件，在重建过程中自动发现物体部件级刚体结构，适用于机械臂操作等任务。对比这些方法：扩散模型擅长补全纹理和细节，但计算开销较大；Transformer端到端方案（如LRM变体）速度快但依赖大规模合成数据；而LLM驱动的方案则实现了多模态融合，但其几何精度仍有提升空间。未来趋势可能是将扩散先验的强生成能力与Transformer的高效推理结合，同时借助LLM的语义理解实现更可控的重建。

04

跨越模态与物理屏障：多传感器融合与物理约束重建

当传统RGB相机在散射介质、弱光或非可见光场景中失效时，多模态传感器与物理先验成为重建的关键桥梁。射频信号穿透性强，Lu et al., 2025^[17] 的GeRaF首次将几何重建拓展至射频域，利用信号强度与飞行时间恢复3D结构，为穿墙或无光场景开辟了新路径。X射线成像在医疗和工业领域不可或缺，Wang et al., 2025^[18] 的X-Field构建了物理信息引导的神经表示，将射线衰减模型嵌入网络，实现了高保真的3D X射线重建，缓解了稀疏投影下的病态性。在计算成像端，Wang et al., 2025^[10] 的CLiFT提出压缩光场令牌，将高维光场信息编码为紧凑特征，在自适应神经渲染中兼顾效率与质量，适用于光场相机等特殊硬件。针对传统几何的鲁棒性问题，Li et al., 2025^[19] 的Cycle-Sync通过增强循环一致性同步，在噪声或缺失匹配下仍能恢复全局相机位姿，为多模态重建提供了可靠的几何锚点。值得注意的是，Chen et al., 2025^[20] 将点云补全任务提升到完整结构引导的层面，利用聚类与实例级对比学习，使补全结果服从物体级结构先验，与物理约束重建形成了互补。这些工作共同表明，3D重建正从单一RGB模态向“传感器融合+物理模型”转型，其核心挑战在于如何设计统一的表示来融合异质数据，同时保持对物理过程的可解释性。

REFERENCES

[1] Robust Neural Rendering in the Wild with Asymmetric Dual 3D Gaussian Splatting. NeurIPS 2025.

[2] EF-3DGS: Event-Aided Free-Trajectory 3D Gaussian Splatting. NeurIPS 2025.

[3] EAG3R: Event-Augmented 3D Geometry Estimation for Dynamic and Extreme-Lighting Scenes. NeurIPS 2025.

[4] MetaGS: A Meta-Learned Gaussian-Phong Model for Out-of-Distribution 3D Scene Relighting. NeurIPS 2025.

[5] EGGS: Exchangeable 2D/3D Gaussian Splatting for Geometry-Appearance Balanced Novel View Synthesis. NeurIPS 2025.

[6] GeoSVR: Taming Sparse Voxels for Geometrically Accurate Surface Reconstruction. NeurIPS 2025.

[7] Adaptive 3D Reconstruction via Diffusion Priors and Forward Curvature-Matching Likelihood Updates. NeurIPS 2025.

[8] 4DGT: Learning a 4D Gaussian Transformer Using Real-World Monocular Videos. NeurIPS 2025.

[9] Towards Dynamic 3D Reconstruction of Hand-Instrument Interaction in Ophthalmic Surgery. NeurIPS 2025.

[10] CLiFT: Compressive Light-Field Tokens for Compute Efficient and Adaptive Neural Rendering. NeurIPS 2025.

[11] LODGE: Level-of-Detail Large-Scale Gaussian Splatting with Efficient Rendering. NeurIPS 2025.

[12] Gaussian Herding across Pens: An Optimal Transport Perspective on Global Gaussian Reduction for 3DGS. NeurIPS 2025.

[13] RGB-Only Supervised Camera Parameter Optimization in Dynamic Scenes. NeurIPS 2025.

[14] ShapeLLM-Omni: A Native Multimodal LLM for 3D Generation and Understanding. NeurIPS 2025.

[15] SIU3R: Simultaneous Scene Understanding and 3D Reconstruction Beyond Feature Alignment. NeurIPS 2025.

[16] Rig3R: Rig-Aware Conditioning and Discovery for 3D Reconstruction. NeurIPS 2025.

[17] GeRaF: Neural Geometry Reconstruction from Radio Frequency Signals. NeurIPS 2025.

[18] X-Field: A Physically Informed Representation for 3D X-ray Reconstruction. NeurIPS 2025.

[19] Cycle-Sync: Robust Global Camera Pose Estimation through Enhanced Cycle-Consistent Synchronization. NeurIPS 2025.

[20] Complete Structure Guided Point Cloud Completion via Cluster- and Instance-Level Contrastive Learning. NeurIPS 2025.

NEXT ISSUE

Computer Vision — Classification and Understanding

深入解析计算机视觉领域前沿进展

关注我们

感谢您的阅读

- END -

打赏

更多>同类资讯

0 条相关评论

推荐图文

推荐资讯

点击排行