推广 热搜： 采购方式滤芯带式称重给煤机甲带气动隔膜泵减速机型号无级变速机链式给煤机履带减速机

Z动态 | 藕舫投资企业「影溯」发布4D世界模型InSpatio-World技术,单段视频即可生成实时漫游的动态世界

日期：2026-05-18 09:40:08 来源：网络整理作者：本站编辑评论：0

浙大人物

章国锋影溯（InSpatio）创始人

浙江大学CAD&CG全国重点实验室求是特聘教授，博士生导师，国家杰出青年科学基金获得者。主要从事三维视觉、增强现实与空间智能方面的研究，尤其在SLAM、三维重建和生成方面取得了一系列重要成果，开源了一系列相关系统和算法的源代码，是OpenXRLab扩展现实开源平台的主要发起人。曾获2011年全国优秀博士学位论文奖、2020年浙江省技术发明奖一等奖（排名第4）、2021年浙江省自然科学奖一等奖（排名第2）以及国际顶级会议ISMAR 2020唯一最佳论文奖。担任国际顶级期刊IJCV编委，以及《Virtual Reality & Intelligent Hardware》、《计算机辅助设计与图形学学报》和《中国图象图形学报》等期刊编委，中国图象图形学学会虚拟现实专委会副主任、增强现实核心技术产业联盟副理事长、浙江省人工智能学会增强现实分会副会长。

如果说过去的视频生成模型是在“拍摄一个世界”，那么新一代世界模型要做的，是让人真正“走进一个世界”。

但这件事远比生成一段视频更难。

传统视频生成架构通常以窗口为单位处理连续帧，虽然能带来不错的动态一致性和视觉质量，却很难支撑实时交互：每一次视角变化、每一次用户操作，都意味着沉重的重新推理成本。

影溯（InSpatio）团队发布的 InSpatio-World 给出了一个新的思路：把世界生成从“视频窗口”推进到“逐帧响应”。通过基于帧的时空自回归范式，模型可以像实时渲染系统一样持续生成下一帧，在低延迟下响应用户相机控制。这让世界模型从“看起来真实的视频”进一步走向“可以实时探索的动态空间”。

本文介绍了由影溯（InSpatio）团队发布的技术报告《InSpatio-World: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling》。

以下视频来源于

影溯科技

已关注

关注

重播分享赞

视频详情

影溯团队提出了一种新颖的实时4D世界模型 InSpatio-World，能够从单段参考视频中恢复并生成高保真、可交互的动态场景。其核心是时空自回归（STAR）框架，通过隐式时空缓存（ST-Cache）维持长程空间一致性，结合基于深度重投影的显式几何约束实现精确相机控制。

同时，提出的联合分布匹配蒸馏（JDMD）有效弥合了合成数据与真实世界的视觉差距。最终，InSpatio-World 以 1.3B 参数实现了单卡 24 FPS 的实时交互漫游，并在 WorldScore-Dynamic 基准所有实时/交互级方法中排名第一（截至模型发布之时）。

项目网站：https://inspatio.github.io/inspatio-world/

Github：https://github.com/inspatio/inspatio-world

技术报告地址：https://arxiv.org/abs/2604.07209

背景

近年来，视频扩散模型在真实感和动态保真度方面取得了长足进步，从文本生成高质量视频的能力已展现出模拟物理世界的巨大潜力。研究焦点也随之从文本到视频生成，逐步转向构建能够支持实时交互的世界模型。

然而，尽管现有视频扩散模型能够合成视觉上引人注目的短片段，在复杂动态环境中执行长期漫游任务时仍面临三大根本性挑战：

空间持久性退化。现有自回归框架缺乏有效的记忆机制和显式几何引导，在长期运行或大视角转换时容易出现场景结构丢失或漂移。

合成到真实的差距。由于过度依赖合成训练数据，生成视频在光照、纹理和材质属性上与真实世界存在明显的分布偏移。

控制精度不足。当前模型普遍无法精确执行用户定义的相机轨迹，反映了底层空间几何推理的根本缺陷。

为克服上述挑战，影溯（InSpatio）团队提出了 InSpatio-World——一个新颖的实时4D世界模型。与现有世界模型不同，InSpatio-World 支持将参考视频转化为能够进行实时交互的"活世界"，实现真正的动态场景漫游体验。

方法

图2：时空自回归框架和JDMD流程的架构。该框架使用参考信息和历史生成构建时空缓存，利用基于深度的投影建立显式几何约束；JDMD阶段采用双教师架构进行多任务蒸馏。

系统概述

InSpatio-World 的整体框架围绕时空自回归（STAR）架构展开，包含两个核心创新：

在架构层面，STAR 框架通过隐式时空缓存（ST-Cache）在滑动窗口内聚合参考帧与历史生成信息，建立起长短程耦合的记忆机制，确保实时探索过程中长程生成的时间稳定性。在此基础上，系统通过基于深度的几何重投影将用户交互转化为精确的相机轨迹，引入显式空间约束以实现高精度相机控制。

在学习机制层面，联合分布匹配蒸馏（JDMD）将训练分解为两个互补任务：可控视频重渲染（V2V）任务从合成数据中学习精确的运动控制和时空一致性；文本到视频（T2V）任务捕获与真实世界数据分布对齐的生成能力。两个任务共享模型权重，使真实世界数据的梯度信号能够引导共享特征空间对齐，从而显著提升生成区域的视觉保真度。

时空自回归框架（STAR）

STAR 框架将生成过程定义为逐块条件自回归任务，每个块由若干连续帧组成。生成当前块时，模型同时受到三种条件的协同约束：

历史条件：先前块的生成潜在表示，提供局部时间上下文，确保块间运动平滑性和逻辑连续性。

参考条件：从参考视频中实时检索的对应潜在表示，作为全局空间锚点，确保长期漫游后仍能准确还原原始场景的纹理和语义特征。

几何条件：由用户交互指令驱动的显式约束，包括几何对齐的重投影特征和有效像素掩码，提供确定性的空间结构引导以防止场景畸变。

时空缓存机制（ST-Cache）

为有效缓解自回归生成中常见的状态漂移并满足实时推理需求，STAR 框架提出了时空缓存机制。该机制将短期时间信息（历史帧）与长期时空锚点（参考帧）整合，以恒定的 KV 缓存内存开销实现高保真的端到端内容生成。

为解决长期推理中旋转位置编码（RoPE）序列增长导致的分布偏移，框架采用位置索引固定策略，将当前块、参考锚点和历史块的起始位置锚定到预设坐标原点，消除时间外推带来的数值不稳定性。此外，逐块反向传播策略将峰值内存使用降低到单个块的规模，使分布损失的端到端优化成为可能。

几何感知显式约束

为精确响应用户的动态交互指令，框架引入了显式几何约束机制，将用户操作转化为确定性的空间结构引导。系统将旋转、平移和透视变换指令映射为6自由度（6-DoF）相对位姿变换，通过前馈重建方法提取参考视频的深度和相机内参，执行几何对齐的重投影操作，为生成过程提供稳定的空间结构锚点。

多条件因果初始化

有别于传统基于因果注意力掩码的初始化方式，STAR 框架提出多条件因果初始化策略。该策略直接在真实数据或教师模型 ODE 轨迹上执行逐块自回归多步演练，使模型在初始阶段就与历史帧、参考图像和几何约束等多种异构条件建立准确关联，在后续蒸馏阶段再专注于采样加速和保真度提升。

联合分布匹配蒸馏（JDMD）

支持参考视频输入的训练需要多视角同步视频流，这类高保真标注数据在真实场景中极为稀缺；虽然合成数据提供了完美的几何约束，但其固有的域偏移会导致纹理平滑、结构重复等感知退化。为此，团队提出了联合分布匹配蒸馏（JDMD）。

JDMD 采用多任务学习范式，通过两个冻结教师分布协同引导学生模型：V2V 任务使用在合成数据上微调的教师，专注于学习精确运动控制和时空一致性；T2V 任务使用在真实数据上训练的教师，捕获真实世界数据分布的视觉先验。两个任务共享学生模型权重，总损失为：

L_JDMD = L_vis + λ_ctrl × L_ctrl

其中 L_vis 来自 T2V 任务提供视觉保真度监督，L_ctrl 来自 V2V 任务提供运动控制监督。这一双轨蒸馏机制保证了相机运动和时空一致性的精确性，同时通过将特征空间与真实世界数据分布对齐，显著提升生成输出的视觉保真度。

实现细节

训练框架以 Wan2.1 为骨干网络，数据来源包括大规模公开互联网视频（如 RealEstate10K）和专门定制的合成数据集（Unreal Engine 渲染序列及 ReCamMaster 数据集）。训练分为三阶段：教师训练（学习率 2×10⁻⁵）→ 学生初始化（建立自回归推理能力）→ JDMD 蒸馏（学生网络学习率 4×10⁻⁶，虚假分数判别器学习率 8×10⁻⁷）。

推理侧以轻量级 Tiny-VAE 替换原始 Wan-VAE 降低延迟，并通过 torch.compile 图级编译优化减少运行时开销。结合模型天然兼容流式推理的架构特性，InSpatio-World（1.3B）在单张H系列显卡上即可实现视频场景实时（24 FPS ）漫游。

结果

团队在三个互补任务上对 InSpatio-World 进行了全面评估：WorldScore 世界模型基准、RE10K 长期图像到视频生成，以及相机控制的生成视频重渲染（合成 Blender 数据集 + 真实 OpenVid 数据集）。

WorldScore 基准

表1：WorldScore基准测试结果。InSpatio-World 在相机控制和光度分数上获得最高分，同时保持具有高竞争力的整体动态性能。

图3：WorldScore-Dynamic 定量比较。InSpatio-World 以显著更低的计算开销（模型参数×推理步数）实现了最高的动态分数，展示了优越的计算-质量权衡。

InSpatio-World（1.3B）在 WorldScore-Dynamic 基准所有实时/交互方法中排名第一，以显著更低的计算开销（模型参数×推理步数）取得了最高分数，展示了优越的计算-质量权衡。

长期图像到视频生成

表2：RE10K-Long 数据集定量比较。InSpatio-World 在生成质量和相机运动精度方面均大幅优于现有方法。

图4：RE10K-Long 定性比较。基线方法随序列增长出现相机漂移或结构扭曲，InSpatio-World 在整个扩展序列中保持了精确轨迹控制和持久几何一致性。

长期生成是考验世界模型空间持久性和误差抑制能力的关键任务。在从 RE10K 随机选取的 100 个超过 150 帧的序列上，InSpatio-World在生成质量（FID、FVD）和相机运动精度方面均大幅优于现有 SOTA，其轨迹误差显著低于次优方法 LingBot-World（为保证对比公允、充分验证方法有效性，这里采用跟LingBot-World和HY-WorldPlay一样的14B 模型规格进行评测）。

定性结果进一步揭示了基线方法的不同失败模式：Infinite-World 随序列增长出现严重结构畸变；HY-WorldPlay 缺乏稳健运动控制，频繁退化为静态帧；LingBot-World 虽保持帧级视觉质量，但相机位姿估计不准确，无法精确跟随预定轨迹。InSpatio-World 通过全局空间参考和显式几何约束，确保了场景几何完整性并实现了精确的用户指令跟随。