推广 热搜: 采购方式  滤芯  带式称重给煤机  甲带  气动隔膜泵  减速机型号  无级变速机  链式给煤机  履带  减速机 

Z动态 | 藕舫投资企业「影溯」发布4D世界模型InSpatio-World技术,单段视频即可生成实时漫游的动态世界

   日期:2026-05-18 09:40:08     来源:网络整理    作者:本站编辑    评论:0    
Z动态 | 藕舫投资企业「影溯」发布4D世界模型InSpatio-World技术,单段视频即可生成实时漫游的动态世界

浙大人物

章国锋  影溯(InSpatio)创始人

浙江大学CAD&CG全国重点实验室求是特聘教授,博士生导师,国家杰出青年科学基金获得者。主要从事三维视觉、增强现实与空间智能方面的研究,尤其在SLAM、三维重建和生成方面取得了一系列重要成果,开源了一系列相关系统和算法的源代码,是OpenXRLab扩展现实开源平台的主要发起人。曾获2011年全国优秀博士学位论文奖、2020年浙江省技术发明奖一等奖(排名第4)、2021年浙江省自然科学奖一等奖(排名第2)以及国际顶级会议ISMAR 2020唯一最佳论文奖。担任国际顶级期刊IJCV编委,以及《Virtual Reality & Intelligent Hardware》、《计算机辅助设计与图形学学报》和《中国图象图形学报》等期刊编委,中国图象图形学学会虚拟现实专委会副主任、增强现实核心技术产业联盟副理事长、浙江省人工智能学会增强现实分会副会长。

如果说过去的视频生成模型是在“拍摄一个世界”,那么新一代世界模型要做的,是让人真正“走进一个世界”。

但这件事远比生成一段视频更难。

传统视频生成架构通常以窗口为单位处理连续帧,虽然能带来不错的动态一致性和视觉质量,却很难支撑实时交互:每一次视角变化、每一次用户操作,都意味着沉重的重新推理成本。

影溯(InSpatio)团队发布的 InSpatio-World 给出了一个新的思路:把世界生成从“视频窗口”推进到“逐帧响应”。通过基于帧的时空自回归范式,模型可以像实时渲染系统一样持续生成下一帧,在低延迟下响应用户相机控制。这让世界模型从“看起来真实的视频”进一步走向“可以实时探索的动态空间”。

本文介绍了由影溯(InSpatio)团队发布的技术报告《InSpatio-World: A Real-Time 4D World Simulator via Spatiotemporal Autoregressive Modeling》。
以下视频来源于
影溯科技
已关注
关注
重播 分享
影溯团队提出了一种新颖的实时4D世界模型 InSpatio-World,能够从单段参考视频中恢复并生成高保真、可交互的动态场景。其核心是时空自回归(STAR)框架,通过隐式时空缓存(ST-Cache)维持长程空间一致性,结合基于深度重投影的显式几何约束实现精确相机控制。
同时,提出的联合分布匹配蒸馏(JDMD)有效弥合了合成数据与真实世界的视觉差距。最终,InSpatio-World 以 1.3B 参数实现了单卡 24 FPS 的实时交互漫游,并在 WorldScore-Dynamic 基准所有实时/交互级方法中排名第一(截至模型发布之时)。
项目网站:https://inspatio.github.io/inspatio-world/
Github:https://github.com/inspatio/inspatio-world
技术报告地址:https://arxiv.org/abs/2604.07209

背景

近年来,视频扩散模型在真实感和动态保真度方面取得了长足进步,从文本生成高质量视频的能力已展现出模拟物理世界的巨大潜力。研究焦点也随之从文本到视频生成,逐步转向构建能够支持实时交互的世界模型。
然而,尽管现有视频扩散模型能够合成视觉上引人注目的短片段,在复杂动态环境中执行长期漫游任务时仍面临三大根本性挑战:
空间持久性退化。现有自回归框架缺乏有效的记忆机制和显式几何引导,在长期运行或大视角转换时容易出现场景结构丢失或漂移。
合成到真实的差距。由于过度依赖合成训练数据,生成视频在光照、纹理和材质属性上与真实世界存在明显的分布偏移。
控制精度不足。当前模型普遍无法精确执行用户定义的相机轨迹,反映了底层空间几何推理的根本缺陷。
为克服上述挑战,影溯(InSpatio)团队提出了 InSpatio-World——一个新颖的实时4D世界模型。与现有世界模型不同,InSpatio-World 支持将参考视频转化为能够进行实时交互的"活世界",实现真正的动态场景漫游体验。

方法

图2:时空自回归框架和JDMD流程的架构。该框架使用参考信息和历史生成构建时空缓存,利用基于深度的投影建立显式几何约束;JDMD阶段采用双教师架构进行多任务蒸馏。

系统概述

InSpatio-World 的整体框架围绕时空自回归(STAR)架构展开,包含两个核心创新:
在架构层面,STAR 框架通过隐式时空缓存(ST-Cache)在滑动窗口内聚合参考帧与历史生成信息,建立起长短程耦合的记忆机制,确保实时探索过程中长程生成的时间稳定性。在此基础上,系统通过基于深度的几何重投影将用户交互转化为精确的相机轨迹,引入显式空间约束以实现高精度相机控制。
在学习机制层面,联合分布匹配蒸馏(JDMD)将训练分解为两个互补任务:可控视频重渲染(V2V)任务从合成数据中学习精确的运动控制和时空一致性;文本到视频(T2V)任务捕获与真实世界数据分布对齐的生成能力。两个任务共享模型权重,使真实世界数据的梯度信号能够引导共享特征空间对齐,从而显著提升生成区域的视觉保真度。

时空自回归框架(STAR)

STAR 框架将生成过程定义为逐块条件自回归任务,每个块由若干连续帧组成。生成当前块时,模型同时受到三种条件的协同约束:
历史条件:先前块的生成潜在表示,提供局部时间上下文,确保块间运动平滑性和逻辑连续性。
参考条件:从参考视频中实时检索的对应潜在表示,作为全局空间锚点,确保长期漫游后仍能准确还原原始场景的纹理和语义特征。
几何条件:由用户交互指令驱动的显式约束,包括几何对齐的重投影特征和有效像素掩码,提供确定性的空间结构引导以防止场景畸变。

时空缓存机制(ST-Cache)

为有效缓解自回归生成中常见的状态漂移并满足实时推理需求,STAR 框架提出了时空缓存机制。该机制将短期时间信息(历史帧)与长期时空锚点(参考帧)整合,以恒定的 KV 缓存内存开销实现高保真的端到端内容生成。
为解决长期推理中旋转位置编码(RoPE)序列增长导致的分布偏移,框架采用位置索引固定策略,将当前块、参考锚点和历史块的起始位置锚定到预设坐标原点,消除时间外推带来的数值不稳定性。此外,逐块反向传播策略将峰值内存使用降低到单个块的规模,使分布损失的端到端优化成为可能。

几何感知显式约束

为精确响应用户的动态交互指令,框架引入了显式几何约束机制,将用户操作转化为确定性的空间结构引导。系统将旋转、平移和透视变换指令映射为6自由度(6-DoF)相对位姿变换,通过前馈重建方法提取参考视频的深度和相机内参,执行几何对齐的重投影操作,为生成过程提供稳定的空间结构锚点。

多条件因果初始化

有别于传统基于因果注意力掩码的初始化方式,STAR 框架提出多条件因果初始化策略。该策略直接在真实数据或教师模型 ODE 轨迹上执行逐块自回归多步演练,使模型在初始阶段就与历史帧、参考图像和几何约束等多种异构条件建立准确关联,在后续蒸馏阶段再专注于采样加速和保真度提升。

联合分布匹配蒸馏(JDMD)

支持参考视频输入的训练需要多视角同步视频流,这类高保真标注数据在真实场景中极为稀缺;虽然合成数据提供了完美的几何约束,但其固有的域偏移会导致纹理平滑、结构重复等感知退化。为此,团队提出了联合分布匹配蒸馏(JDMD)。
JDMD 采用多任务学习范式,通过两个冻结教师分布协同引导学生模型:V2V 任务使用在合成数据上微调的教师,专注于学习精确运动控制和时空一致性;T2V 任务使用在真实数据上训练的教师,捕获真实世界数据分布的视觉先验。两个任务共享学生模型权重,总损失为:
L_JDMD = L_vis + λ_ctrl × L_ctrl
其中 L_vis 来自 T2V 任务提供视觉保真度监督,L_ctrl 来自 V2V 任务提供运动控制监督。这一双轨蒸馏机制保证了相机运动和时空一致性的精确性,同时通过将特征空间与真实世界数据分布对齐,显著提升生成输出的视觉保真度。

实现细节

训练框架以 Wan2.1 为骨干网络,数据来源包括大规模公开互联网视频(如 RealEstate10K)和专门定制的合成数据集(Unreal Engine 渲染序列及 ReCamMaster 数据集)。训练分为三阶段:教师训练(学习率 2×10⁻⁵)→ 学生初始化(建立自回归推理能力)→ JDMD 蒸馏(学生网络学习率 4×10⁻⁶,虚假分数判别器学习率 8×10⁻⁷)。
推理侧以轻量级 Tiny-VAE 替换原始 Wan-VAE 降低延迟,并通过 torch.compile 图级编译优化减少运行时开销。结合模型天然兼容流式推理的架构特性,InSpatio-World(1.3B)在单张H系列显卡上即可实现视频场景实时(24 FPS )漫游。

结果

团队在三个互补任务上对 InSpatio-World 进行了全面评估:WorldScore 世界模型基准、RE10K 长期图像到视频生成,以及相机控制的生成视频重渲染(合成 Blender 数据集 + 真实 OpenVid 数据集)。

WorldScore 基准

表1:WorldScore基准测试结果。InSpatio-World 在相机控制和光度分数上获得最高分,同时保持具有高竞争力的整体动态性能。
图3:WorldScore-Dynamic 定量比较。InSpatio-World 以显著更低的计算开销(模型参数×推理步数)实现了最高的动态分数,展示了优越的计算-质量权衡。
InSpatio-World(1.3B)在 WorldScore-Dynamic 基准所有实时/交互方法中排名第一,以显著更低的计算开销(模型参数×推理步数)取得了最高分数,展示了优越的计算-质量权衡。

长期图像到视频生成

表2:RE10K-Long 数据集定量比较。InSpatio-World 在生成质量和相机运动精度方面均大幅优于现有方法。
图4:RE10K-Long 定性比较。基线方法随序列增长出现相机漂移或结构扭曲,InSpatio-World 在整个扩展序列中保持了精确轨迹控制和持久几何一致性。
长期生成是考验世界模型空间持久性和误差抑制能力的关键任务。在从 RE10K 随机选取的 100 个超过 150 帧的序列上,InSpatio-World在生成质量(FID、FVD)和相机运动精度方面均大幅优于现有 SOTA,其轨迹误差显著低于次优方法 LingBot-World(为保证对比公允、充分验证方法有效性,这里采用跟LingBot-World和HY-WorldPlay一样的14B 模型规格进行评测)。
定性结果进一步揭示了基线方法的不同失败模式:Infinite-World 随序列增长出现严重结构畸变;HY-WorldPlay 缺乏稳健运动控制,频繁退化为静态帧;LingBot-World 虽保持帧级视觉质量,但相机位姿估计不准确,无法精确跟随预定轨迹。InSpatio-World 通过全局空间参考和显式几何约束,确保了场景几何完整性并实现了精确的用户指令跟随。

相机控制的生成视频重渲染

表3:相机控制视频重渲染定量比较。InSpatio-World 在 OpenVid 和合成 Blender 数据集上均达到SOTA。
图5:视频重渲染定性比较。与 TrajectoryCrafter、ReCamMaster、NeoVerse 相比,InSpatio-World 对原始场景有更高的结构保真度和更好的纹理细节。
在合成 Blender 数据集(100 样本,含精确轨迹真值)和真实 OpenVid 数据集(240 样本,40 原始视频×6 轨迹)上,InSpatio-World 在 FID、FVD 和综合视频质量指标方面均达到 SOTA,同时保持了与当前最优模型相当的相机控制精度。

局限与展望

尽管 InSpatio-World 在实时4D世界建模上取得了显著进展,当前系统仍面临若干挑战:
动态内容的一致记忆:现有框架整合了外部时空锚点和显式点云记忆以维持空间一致性,但主要作为结构骨架发挥作用,对自主生成区域的细粒度纹理持久编码仍显不足。
全向动态漫游:显式几何方案有效支持了静态环境中的大规模位移,但在广角、全向视角转换时,动态元素的多视角一致性保障仍有待提升。
展望未来,团队将专注于两个关键方向:一是开发更深层次的语义记忆系统,探索几何结构与高维纹理特征的深度耦合,实现生成区域的全时空记录与重建;二是通过引入更强的物理先验研究长程动态约束机制,推动大规模高复杂度动态场景的完美闭环模拟,持续拓展生成世界模型的应用边界。

往期回顾

Z动态 | 在-273℃的极寒里,浙大95后创业团队俯身听见人类算力下一次跃迁的心跳
Z动态 | 华为、联想、富瀚微罕见「同框」,00后空间智能创业者连续获得两轮融资
Z榜单 | 全球第五,中国第一:36位亿万富豪背后的“浙大现象”
使命:帮助有情怀的浙大人做有意义的事
愿景:以“藕”链接浙大校友,以“舫”承载求是情怀
价值观:求是   本分  
藕舫天使专注于服务、投资浙江大学校友师生创业的项目,致力于支持浙大校友成为“公忠坚毅,能担当大任,主持风会,转移国运”的商业领袖。
藕舫团队已经参与投资了100多家浙大校友创业企业:
科技领域:可胜技术、长光辰芯、棒糖科技、糖吉医疗、形色、票小秘、帕拉卡、码全信息、深视科技、双深信息、多翼科技、睿维视科技、地卫二空间技术、视光半导体、青塔科技、傲芯科技、玩点旅行、一目可视、超光微、速智通科技、再造再生;
智能制造领域:三相科技、励贝液压、拓烯科技、英创新材料、喜马拉雅科技、海川电气、晶宝新能源等

—— Angel For ZJU

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON