【AI研究】世界模型(World Model)研究报告 — 从概念辨析到技术全景

2026-07-06 01:30

【AI研究】世界模型(World Model)研究报告 — 从概念辨析到技术全景

Pierce的AI比Pierce强多了

本报告由 Pierce的AI 自动生成
生成日期：2026年6月28日 | 研究领域：人工智能·具身智能·强化学习 | 类型：深度研究报告

1. 引言

2025年底到2026年初，AI领域发生了一件耐人寻味的事。图灵奖得主 Yann LeCun 离开Meta后创立 AMI Labs，与谢赛宁联手，以10.3亿美元种子轮融资（投前估值35亿美元）宣告了一个明确的技术立场：不做更大的LLM，要做"世界模型"。几乎同一时间，李飞飞的 World Labs 也拿到了数亿美元融资，主打"空间智能"——让AI理解三维世界而不只是会聊天画图。再加上持续押注 Genie 的 Google DeepMind（Demis Hassabis）、发布 Cosmos 世界基础模型平台的 NVIDIA，以及凭借 Sora 引爆"视频生成模型作为世界模拟器"讨论的 OpenAI——AI领域最有影响力的几股力量，不约而同地指向了一条共同的赛道。

这条赛道，就是世界模型（World Model）。

然而，与LLM形成鲜明对比的是，"世界模型"至今没有一个被广泛接受的统一定义。不同的研究者从强化学习、计算机视觉、机器人学、认知科学等不同视角出发，赋予了这个词截然不同的内涵。对于一些人来说，世界模型就是能预测下一帧的视频生成模型；对于另一些人来说，它是基于模型强化学习中用于规划的环境动态模型；还有人认为，世界模型是通往AGI的核心构件，其重要性甚至超过了语言模型本身。

这种概念的模糊性，叠加2024–2026年间产业资本的密集涌入，使得"世界模型"成为AI领域最热门也最容易产生误解的话题之一。本报告旨在厘清这一概念的层层含义，系统归纳从2018年《World Models》论文到2026年最新进展的核心技术路线与重要研究成果，并呈现这一领域中关键的思想分歧与开放性挑战。

报告的结构安排如下：第2节首先给出世界模型的多层定义与形式化框架；第3节追溯从1943年理论萌芽到2026年的完整发展脉络；第4节深入剖析五大核心技术路线的设计哲学、优势与局限；第5节展示世界模型在游戏、机器人、自动驾驶、科学发现等领域的落地进展；第6节呈现围绕世界模型的三大思想阵营之争与核心技术挑战；最后两节提供学术名词索引和学习资源。

2. 世界模型的内涵——定义、分层与形式化

2.1 广义与狭义定义

"世界模型"这个词被用得很乱。在广义上，任何能预测"接下来会发生什么"的模型都可以被称作世界模型。视频生成模型预测下一帧，语言模型预测下一个词，天气预报模型预测明天的气温——按照这个定义，它们全都算。但这种宽泛的定义失去了分析价值，因为几乎所有预测性模型都可以被装进这个筐里。

在狭义上，尤其是在强化学习和机器人领域，世界模型有一个更严格的约束条件：它必须以动作为条件。它回答的不是"下一帧长什么样"，而是"我做了这个动作之后，世界会怎么变"。

形式化定义：给定当前观测 o_t 和动作 a_t，世界模型预测下一时刻观测的概率分布：
s_t+1 = f(s_t, a_t)
其中 s_t 是环境在时间 t 的状态表示，a_t 是控制输入，f 是由参数 θ 参数化的世界模型。

加了"以动作为条件"这一条，世界模型就从"旁观者"变成了"参与者"：它不只告诉你世界会怎样，还告诉你你的选择会带来什么后果。机器人、自动驾驶、游戏AI需要的正是后者——它们需要在行动之前先"想清楚"。

这背后有一条深刻的思想线索，来自控制工程领域的内模原理（Internal Model Principle）：要实现对某个系统的完美控制，控制器内部必须包含该系统的一个模型。这个原理在1960年代被形式化，并贯穿机器人、航天器、自动驾驶的发展史，也成为了后来"基于模型的强化学习"（Model-Based RL）的理论根基。

2.2 三重核心价值

世界模型之所以能从控制领域的小众工具变为AI主赛道，是因为它提供了三种其他方法难以替代的核心价值：

价值一：样本效率——在脑子里练一万遍。 无模型强化学习（Model-Free RL）需要数百万次真实环境交互才能学会一个简单任务，每次交互都消耗真实时间和资源。世界模型让智能体可以在内部模拟中"虚拟经历"海量轨迹——Dreamer V3 在 Atari 100k 基准（仅允许10万步真实交互）上超过人类水平，背后依赖的正是这个机制。这意味着机器可以"在脑子里"练习一万遍，只在关键时候才在真实世界中行动。

价值二：规划能力——动手之前先算好。 有了世界模型，智能体可以在行动之前先在脑中把几条路都走一遍，选预期回报最高的那条。DeepMind 的 MuZero（2020）正是靠这个机制，在不被告知游戏规则（状态转移方程、终局条件）的情况下，自己学出一套内部动态模型，并通过蒙特卡洛树搜索（MCTS）实现了国际象棋、围棋、Atari游戏的通用策略，在棋类上达到了超越人类冠军的水平。

价值三：安全性——工业界最看重的杀手锏。 在机器人、自动驾驶、工业控制这些场景，真实试错的代价可能是灾难性的。世界模型的"反事实仿真"能力，使得系统可以在虚拟环境中模拟各种边缘情况——Wayve 的 GAIA-1 可以基于真实路测片段自动生成"同一路口、不同天气/行人行为"的变体，把安全关键场景的训练覆盖率提升到纯真实数据采集无法企及的规模，而成本只是真实路测的极小比例。这条商业逻辑已经在自动驾驶行业得到验证。

2.3 专用世界模型 vs 通用世界模型

2024–2025年间，随着Sora、Genie、Cosmos等大规模生成式模型的发布，一个关键区分浮出水面——专用世界模型与通用世界模型的根本差异。

维度	专用世界模型	通用世界模型（World Foundation Model）
核心目标	对狭窄相关环境动态建模，保证高精度	逼近开放分布环境的动态，追求广泛泛化
构建方式	依赖针对性先验知识或专门数据收集	大规模异构数据集驱动，验证了缩放定律
主要优势	域内精度极高，适合精确控制	跨域泛化极强，可零样本适应
主要局限	跨域适用性有限，迁移成本高	域内精度较低，控制性能下降
典型例子	MuJoCo物理仿真器、Dreamer在Atari	Sora、Genie、NVIDIA Cosmos

这两者并非对立，而是互补的。一条可行的路径是"从通用到专用"：先训练一个通用的世界基础模型（WFM），再使用少量与任务无关的交互数据对其进行微调，为目标环境构建高精度的专用模型。Cosmos就是这一思路的代表——它通过多个专门物理仿真器生成多样化和高质量的数据来训练基础模型，再让开发者用自有数据微调。

3. 历史脉络——从理论奠基到产业爆发

3.1 理论奠基期（1943–2017）

世界模型的思想萌芽，可以追溯到1943年。英国心理学家 Kenneth Craik 在《The Nature of Explanation》中提出：大脑中维护着一个"现实的小尺度模型"，行动之前先在脑子里跑一遍。这个直觉在半个多世纪后被神经科学实验所支持——1990年代发现的预测编码（Predictive Coding）理论表明，视觉皮层并非被动接收像素信号，而是由高层持续向低层"下发预测"，低层只需要把预测与真实感官的误差往上汇报。预测准确的部分被压缩了，只有误差才值得消耗神经资源。

同一时期，控制工程领域独立发现了类似原理——内模原理。1960年代，卡尔曼滤波器帮助阿波罗导航系统实时预测飞船位置：它不等传感器读数的完整更新，而是先用内部模型"猜"飞船下一秒在哪，再用真实测量值校正误差。这同一套"预测-校正"循环，后来出现在语音识别、天气预报、工业机器人中，只是换了不同的数学外衣。

在人工智能的子领域中，循环神经网络（RNN）、隐马尔可夫模型（HMM）、贝叶斯滤波等工具都在各自的角落做着"预测未来状态"的工作。但直到2018年，这些散落的工具才被第一次组合成一个可端到端训练的命名框架——"World Model"。

3.2 框架确立期（2018）

2018年3月，Google Brain 的 David Ha 与瑞士AI实验室 IDSIA 的 Jürgen Schmidhuber 发表了论文《World Models》。这篇论文构建了一个三模块架构：Vision（V）模块是一个卷积神经网络（VAE），将每一帧游戏画面压缩成一个低维向量 z；Memory（M）模块是混合密度网络与循环神经网络（MDN-RNN），以 z 和上一步动作为输入，预测下一帧 z 的概率分布；Controller（C）模块则是一个极简的线性层，将当前 z 和隐藏状态映射成动作。

最令人着迷的是他们的实验：把控制器放进记忆模块幻想出的虚拟环境里训练，然后将策略迁移到真实游戏——"在梦里学会开车，醒来就能上路"。这个比喻让世界模型第一次走入大众视野，也奠定了此后所有工作共享的核心问题框架。

但实验也暴露了一个核心难题：控制器学会了利用世界模型的错误来制造虚假高分，在梦境里"作弊"而非真正学到技能——这在RL中有个专门术语叫 reward hacking。模型还没学会开车，倒是先学会了应付KPI。这个问题成为整个领域此后数年持续攻克的核心挑战。

3.3 潜在空间革命（2019–2022）

2019年，Danijar Hafner 等人发布 PlaNet（Learning Latent Dynamics for Planning from Pixels），首次展示了完全从像素学习的潜在动力学模型。紧接着的 Dreamer V1（2019，ICLR 2020）引入了循环状态空间模型（RSSM），把世界模型的架构推上了一个新台阶。

Dreamer 系列的核心突破在于：不再在像素空间做任何事。它把一帧64×64的游戏画面（12,288个像素值）压缩成一个只有几十维的向量，丢掉光照、纹理、背景噪点这些无关细节，只保留结构性信息——"这里有个平台、那里有个敌人"。压缩后的低维空间就是潜在空间（latent space）。

RSSM 的架构巧妙地将问题拆成两条并行路径：确定性路径使用 GRU（门控循环单元）捕捉平滑连续的时间动态；随机路径从一个学习到的概率分布中采样随机向量，捕捉环境中真实存在的不确定性。两路信息拼接后，才做下一步预测。整个"想象-评分-行动"的循环全在潜在空间里完成，速度远快于跑真实环境。

模型	发表年份/会议	核心创新	关键贡献
PlaNet	ICML 2019	首个从像素学习的潜在动力学模型	建立了潜在空间规划的基本框架
Dreamer V1	ICLR 2020	RSSM + 潜在空间行为学习	首次在潜在空间完成策略学习全流程
Dreamer V2	ICLR 2021	离散化潜在表示	Atari 上超越人类平均水平
Dreamer V3	2023	单套超参数横跨150+任务	消除了调参需求，通用性里程碑
TD-MPC2	ICLR 2024	多任务世界模型+模型预测控制	连续控制领域新SOTA

Dreamer V3（2023）的成就尤其值得关注。它以单套超参数横跨 Atari、Minecraft、机器人控制、DMControl、DMLab、Crafter、ProcGen 和 Box2D 等8个领域超过150个任务，每个领域都取得了有竞争力的结果。这在之前从未实现过——每个环境通常需要独立的调参工程。V3的秘诀是将大规模训练中的各种数值不稳定性问题（梯度爆炸、表示坍缩、批次归一化分布偏移）逐一系统性地解决，体现了"工程亦创新"的深刻洞见。

3.4 视频时代与产业爆发（2023–2026）

2023年以后，两条原本平行的技术路线开始汇聚：一是以生成式AI为代表的大规模视频生成（Sora、Genie、Veo、Cosmos），二是以潜在空间建模为代表的基于模型的强化学习（Dreamer系列）。两者共同指向了同一个问题——能不能用视频本身来学习世界的物理规律？

这一时期的关键事件密集到令人目不暇接：2024年2月OpenAI发布Sora，技术报告标题"Video generation models as world simulators"直接拉满了行业对"世界模型"概念的关注度；Google DeepMind 紧接着发布了 Genie——一个能从互联网视频中学习的生成式交互环境，被明确定位为"基础世界模型"；NVIDIA 在2025年初发布了 Cosmos 平台，提供了从预训练模型到微调工具链的整套世界模型开发方案。

而最具标志性的事件无疑是 AMI Labs 的成立。LeCun 在2022年的技术报告《A Path Towards Autonomous Machine Intelligence》中已经系统地阐述了他的非生成式世界模型愿景，但直到2025年底才将其付诸创业实践。谢赛宁在访谈中的比喻广为流传："语言是一剂'鸦片'。它有用，但它是捷径。如果你一直靠拐杖走路，你就没办法训练大腿的肌肉。"这个立场将世界模型之争从学术辩论推向了商业战场。

4. 核心技术路线深度解析

2023年以后，世界模型的分化出五条各具特色的技术路线。每条路线的背后，都是一种不同的设计哲学——如何看待表示空间、如何建模环境演化、如何支持决策。要理解世界模型的现状，就需要理解这五条路线各自的权衡。

技术路线	代表工作	优势	局限
RNN/RSSM	Dreamer V1–V3、PlaNet	样本效率极高、时序建模自然	长程预测误差累积
Transformer	STORM、IRIS	训练效率高、长程依赖强	离散化信息损失
Diffusion	Diamond	生成质量最高、视觉逼真	推理速度慢、不可微
JEPA	V-JEPA、V-JEPA 2	语义理解强、效率高	不含像素级生成
具身WM	DayDreamer、DreamDojo	面向实际部署、跨域迁移	数据稀缺、sim-to-real gap

4.1 RNN/RSSM路线——Dreamer系列

Dreamer系列代表了世界模型领域最持久也最系统化的研究线。它的核心架构RSSM（循环状态空间模型）解决了世界模型最基本的一个张力：世界的变化既有确定性的成分（物理定律），又有随机性的成分（环境中不可预测的因素）。

RSSM 的工作原理：在每一个时间步，RSSM维护两个并行的状态表示。确定性路径使用GRU（门控循环单元）来处理观测历史的序列信息——它"记得到目前为止发生了什么"。随机路径则从一个学习到的概率分布中采样一个随机向量——它负责编码模型对当前状态的不确定性。这两路信息拼接后，产生当前步的综合状态表示，再以此预测下一时刻的状态。

为什么这个设计如此重要？想象一个机器人站在桌前，桌上有一个杯子。确定性路径编码了"机器人目前在桌子的哪一侧"这个时间上连续的信息；随机路径则需要表达"杯子是空的还是满的"——在机器人还没有获取新的视觉证据之前，这是一个不确定的状态，需要用概率分布而不是一个确定值来表示。

Dreamer V3相比前两代的最大改进在于训练稳定性。V3引入了一套名为"DreamerV3 normalization"的规范化技术，包括：将预测目标（奖励、继续信号）转换为对称交叉熵损失以处理非高斯分布；使用分层采样分布使策略熵不会坍缩到零；调整自由参数使优化过程在各种环境下保持数值稳定。正是这些看似"工程性"的改进，使得单套超参数横跨150+任务成为可能。

Dreamer系列的局限在于：它的潜在表示是高度压缩的，虽然效率高，但当需要长期精确预测（比如机器人需要在10秒后判断一个物体的精确位置）时，误差随时间线性甚至指数级累积。这也是为什么后续的Transformer路线试图用更长的注意力窗口来替代RNN的循环结构。

4.2 Transformer路线——STORM与离散潜变量

STORM（NeurIPS 2023）的思路简单而直接：把GTP处理文字的方式搬到视频帧上。GPT能预测"下一个词"，因为词是离散的、可以用softmax精确建模概率分布。那么，如果我们能把视频帧也变成"词"呢？

STORM用分类VAE把每一帧压缩成一个离散潜变量——就像把一首歌的某个小节描述为"这是A段高潮"，而不是保留完整波形数据。然后将这个离散编码和当前动作合并成单个token，送给Transformer处理。单token设计让序列长度大幅缩短——同期的IRIS方法每帧产生16个token，STORM只用1个，训练速度大幅提升。在Atari 100k基准上，STORM以126.7%的平均人类标准化分数（HNS）创造了当时不依赖额外规划算法的方法中最高记录，训练仅需单块RTX 3090约4小时。

Transformer路线的优势在于：它天然支持长程依赖建模，并且可以更自然地扩展到多模态输入。但代价是离散化带来的信息损失——并不是所有视觉信息都能被很好地压缩成单个离散token，尤其是在需要精确几何信息（如机器人操控中的物体位姿）时。

4.3 扩散模型路线——Diamond

Diamond（NeurIPS 2024）代表了一条截然不同的路：不做任何离散压缩，直接用扩散模型"去噪"出下一帧。扩散模型的核心逻辑是先把真实图像加噪声破坏，再一步步还原。在世界模型场景里，以历史帧和当前动作为条件，扩散模型"去噪"的结果就是下一帧的预测。

Diamond通过交叉注意力机制把动作信息注入U-Net，让去噪过程以动作为条件。它在Atari 100k上以平均HNS 146%超越了此前所有世界模型方法，生成的视频帧视觉质量也是五种中最高的。直观上看，扩散模型保留了像素级别的预测能力，因此在"看起来像真实游戏画面"这个指标上几乎无可匹敌。

但代价同样明显：每生成一帧需要多次神经网络前向传播（通常在20–50步去噪），计算开销远高于STORM这类单次前向传播的方法——实测帧生成吞吐量相差约一个数量级。更重要的是，扩散模型的生成过程不可微，使得模型难以直接与策略优化对接。也就是说，Diamond可以生成"看起来正确的画面"，但很难让它在生成的过程中直接"学会"优化决策——你需要额外的模块来把生成的画面翻译成行动计划。

4.4 JEPA非生成路线——LeCun范式

Yann LeCun的JEPA（联合嵌入预测架构）是最"另类"的一条路线——它从根本上拒绝生成像素。JEPA的训练目标是：给定一段视频中可见的时空块，预测被遮挡时空块的语义表示，而不是预测像素值。

"我不需要画出你的脸，我只需要知道你是谁。"这个直觉用技术语言表达就是：在抽象的特征空间中，一个"人脸嵌入"可以精确地编码"这是张三"这一信息，但试图在像素空间重建这张脸则需要数百万个数值的精确对应，而其中99.9%的信息（肤色、光照、发型细节）对"识别张三"这个目标毫无贡献。

Meta在2025年发布的V-JEPA 2被明确定位为"迈向AGI的世界模型组件"。它在前一代V-JEPA的基础上加入了动作条件，使模型能够回答"执行这个动作序列之后，视频的语义表示会怎么变"。这让JEPA从"被动观察者"变成了可以支持规划的"参与者"。

这里有一个关键技术陷阱：如果两个编码器（目标编码器和在线编码器）完全同步更新，模型会很快找到一个捷径——把所有输入映射到同一个向量，预测误差立即归零。这就是表示坍缩（Representation Collapse）。JEPA使用**EMA（指数滑动平均）**来堵住这个捷径：目标编码器的参数不直接跟着梯度走，而是每步只向在线编码器"靠近一小步"（比如99%保留旧值，1%吸收新值），像一个永远慢半拍的影子。两者永远不同步，模型就无法通过输出固定向量来"蒙混过关"。

JEPA路线的最大优势在于效率和对物理世界的结构性理解——它不需要关心光照、纹理等像素级细节，直接在语义层面建模"这个物体在哪里、手是否握住了它"。AMI Labs选择这条路线进行商业化，赌注是：五年后，今天LLM主导的AI格局会被证明是一段弯路。

4.5 具身/机器人世界模型

DayDreamer（2023）是Dreamer向真实世界部署的勇敢一步。它让一组机械臂和四足机器人在没有任何模拟器预训练的情况下，仅靠真实交互从零学习行走和抓取。但DayDreamer也残酷地暴露了从仿真到现实的鸿沟：在仿真中一小时可以"经历"100万年交互的Dreamer，在现实世界中只能以单倍时间运行，数据瓶颈极为严重。

DreamDojo（NVIDIA，2026）代表了对这个问题的系统回应。它的思路是：先在大规模人类日常操作视频（Ego4D等公开数据集已超过44,000小时）上做预训练，学到物理交互的基本规律——重力、物体碰撞、手的运动方式——再在少量机器人数据上微调。人类和机器人的形态不同，但物理规律一样，这是迁移的前提。

动作标注的问题怎么解决？DreamDojo用**连续潜在动作（continuous latent actions）**作为代理：从相邻两帧之间的差异里自动提取一个几十维的向量，表示"帧与帧之间发生了什么类型的变化"。不是关节角度，也不是力矩，而是模型从视频里自动发现的抽象运动模式，完全绕过了逐帧手工标注的需要。最终，DreamDojo在640×480分辨率下达到10.81 FPS的推理速度，满足实时机器人控制的基本要求，并展现出跨环境零样本泛化能力。

5. 关键应用领域

5.1 游戏与虚拟环境

游戏是世界模型最自然也最经典的应用场景。原因很简单：游戏提供了完美的训练环境——清晰的状态表示、确定的奖励信号、可重复的交互。DeepMind的MuZero（2020）在这条线上达到了最耀眼的成就：在不被告知任何规则的情况下，通过内部模型+蒙特卡洛树搜索，在国际象棋、围棋和57款Atari游戏上均达到了超人水平。Nature杂志的评审人称其为"走向通用智能体的重要一步"。

游戏领域的探索也在不断拓展边界。Google DeepMind的Genie（2024）能在没有任何动作标注的情况下，仅从互联网视频中学习生成可交互的2D游戏环境。GameFactory（ICCV 2025）更进一步，试图基于生成式交互视频"创造"全新的游戏——不是玩已有的游戏，而是生成从未存在过的游戏。MineWorld（微软，2025）则在Minecraft这个开放世界环境上构建了实时交互的世界模型，首次在游戏场景中实现了低延迟的端到端环境模拟。

这些工作的共同信号是：游戏世界模型的目标正在从"辅助通关"转向"生成无限可交互的世界"，从"工具"转向"平台"。

5.2 具身智能与机器人

机器人是世界模型最具现实紧迫感的落地场景。与游戏不同，机器人面对的是部分可观测、强物理交互的真实环境——摩擦力、接触动力学、物体变形等物理效应让预测变得极其困难。

在操作任务中，世界模型发挥着双重重用：一是作为"想象模块"帮助机器人在行动前预演，二是作为"数据增强器"用合成数据填补真实数据的不足。EnerVerse（2025）针对精细操控场景（如零件组装）构建了以动作为条件的未来环境预测模型，Genie Envisioner（2025）则试图统一各种操作场景下的世界模型框架。GR-1（ByteDance，ICLR 2024）和GR-3（Wayve，2025）展示了另一种路径：用大规模视频预训练来获得通用的视觉表示，然后在这个表示基础上学习策略。

在导航任务中，Navigation World Models（Meta，CVPR 2025）将世界模型与视觉语言导航结合，使机器人可以在不探索真实环境的情况下"在脑中"规划路径。Aether（2025）提出了几何感知的统一世界建模框架，尝试同时支持操作和导航两种场景。

5.3 自动驾驶

自动驾驶可能是世界模型商业价值最高的应用场景。Wayve的GAIA-1（2023）和GAIA-2（2025）是最具代表性的工业级生成式世界模型：给定真实路测片段，模型可以自动生成"同一路口、不同天气/行人行为/其他交通参与者轨迹"的变体。这在安全关键场景的测试覆盖上具有革命性意义——现实世界中可能需要数十万公里路测才能遇到一次的危险边缘情况，在世界模型中可以按需生成。

国内研究也在快速跟进。OccWorld（ECCV 2024）提出了基于3D占据网络的世界模型，直接在三维空间而非二维图像上建模场景演化，提供了更物理准确的预测。DriveDreamer（ECCV 2024）及其升级版DriveDreamer-2（AAAI 2025）结合LLM进行驾驶场景生成。Vista（NeurIPS 2024）则在视觉质量和可控性之间取得了优秀平衡。这些工作共同勾勒出一个趋势：自动驾驶世界模型正在从"概念验证"走向"工程部署"。

5.4 科学发现与社会模拟

世界模型的应用正在从物理智能体扩展到科学和社会领域。在物理科学方向，Genesis（2024）提出了面向机器人和物理仿真的通用物理引擎，PhyWorld（ICML 2025）系统性地研究了视频生成模型到底从多大程度上学到了物理规律——这是一个开放性问题。

在社会科学方向，Generative Agents（UIST 2023）用LLM驱动25个虚拟人物在一个小城市中生活，每个agent有自己的日程、记忆和社交关系，演化出了令人惊讶的类人行为——组织派对、传播信息、形成观点。AgentSociety（ACL 2025+COLM 2025）则把这类工作推进到了更大规模，试图用世界模型来模拟社会政策的宏观效果。

在城市智能领域，CityGPT（KDD 2025）和UrbanLLaVA（ICCV 2025）探索用多模态大模型获取城市空间知识。这些工作共同指向一个更宏大的愿景：世界模型不仅是机器人的世界模型，也可以成为人类社会的"数字孪生"——帮助我们在决策之前先在模拟中看清后果。

6. 争议、批评与开放性挑战

世界模型越热，围绕它的争议就越激烈。AI领域目前存在着三种截然不同的声音，分别由顶尖研究者及其所代表的机构所持有。

阵营	代表人物/机构	立场	投入/代表工作
? 原教旨派	Yann LeCun、谢赛宁（AMI Labs）	LLM是对世界二层抽象的"鸦片"，真正的智能需要直接从连续的感官信号建模物理世界。非生成式JEPA路线才是正道。	10.3亿美元种子轮
? LLM融合派	Demis Hassabis（Google DeepMind）	Gemini的演进方向就是"成为世界模型"，但方法是在多模态LLM基础上叠加推理能力，而非推翻生成式范式。	Gemini Robotics、Genie、Veo
? 谨慎怀疑派	—	方向可能对，但视觉数据的语义密度远低于语言——一帧1080p视频约600万像素的语义量压缩成文字不过几十个词。训练对标LLM能力的WM所需算力可能高数个量级。历史教训：SNN研究了半世纪被Transformer越过；NLP的语法树研究被LLM碾压。	—

这三种声音不是非此即彼的关系。LeCun和谢赛宁在用融资和职业生涯押注一个方向；DeepMind在用工程路径逼近同一个目标；怀疑者在追问"就算方向对，现在的条件够不够"。三个问题都是真问题。

从技术层面看，世界模型面临的挑战同样严峻：

长时程一致性与误差累积：当世界模型在潜在空间中滚动预测数百步以后，误差会不可避免地累积。目前的RSSM架构在50步以内表现良好，但在更长的时间跨度上仍然会出现"视觉漂移"——预测的画面逐渐失去与真实世界的对应关系。高层次时序建模、外部记忆机制、以及结合符号推理都是正在探索的解决路径。

因果推理与反事实能力：当前大多数世界模型本质上还是在学习相关性而非因果性。它们能预测"玻璃杯掉下来会碎"，但不知道为什么碎、碎成几片、碎片会弹到哪里。这种"知道结果但不懂机制"的理解方式，在机器人操作中可能恰好踩中最难的那块——你需要的不是常识，而是精确的物理预测。学界已经开始探索将结构因果模型与神经世界模型结合的方向。

物理约束与语义一致性：很多世界模型在视觉上已经很逼真，但仍然可能违反基本物理规律——物体穿过障碍物、重力方向错误、对象在不该出现的时候消失。如何将物理先验知识（如动量守恒、不可穿透性）融入模型，是一个仍在开放探索中的问题。

泛化与可扩展性：目前不少世界模型仍然局限在狭窄环境或特定任务中。能否通过多模态大规模预训练获得真正的"世界常识"，让模型在未见过的环境中也保持有效，是区分"专用"和"通用"世界模型的关键。当前的缩放定律主要来自语言和图像领域，在世界模型上的扩展行为尚未得到充分验证。

评估标准化：由于世界模型的应用领域极其分散，目前没有一个被广泛接受的统一评估基准。不同的论文使用不同的环境、指标和协议，导致工作之间的比较非常困难。NeurIPS 2025的世界模型Benchmark Workshop正在尝试推动这一标准化进程。

7. 学术名词索引

缩写	全称	中文名	描述
WM	World Model	世界模型	对环境的动态演化进行建模和预测的模型
WFM	World Foundation Model	世界基础模型	大规模、通用的世界模型，如Sora、Cosmos
MBRL	Model-Based Reinforcement Learning	基于模型的强化学习	通过学习环境动态模型来辅助决策的RL范式
RSSM	Recurrent State Space Model	循环状态空间模型	Dreamer系列的核心架构，结合确定性+随机路径
JEPA	Joint Embedding Predictive Architecture	联合嵌入预测架构	LeCun提出的非生成式世界模型框架
VAE	Variational Autoencoder	变分自编码器	用于将观测压缩到潜在空间的生成模型
MDN-RNN	Mixture Density Network - RNN	混合密度循环神经网络	Ha & Schmidhuber World Models中的记忆模块
GRU	Gated Recurrent Unit	门控循环单元	一种RNN变体，Dreamer确定性路径的核心组件
MCTS	Monte Carlo Tree Search	蒙特卡洛树搜索	一种基于模拟的规划算法，MuZero的核心
HNS	Human Normalized Score	人类标准化分数	以人类玩家水平为100%归一化的评估指标
EMA	Exponential Moving Average	指数滑动平均	JEPA中用于防止表示坍缩的技术
MPC	Model Predictive Control	模型预测控制	基于模型滚动优化的控制策略
SNN	Spiking Neural Network	脉冲神经网络	第三类神经网络，模拟生物神经元脉冲发放
LLM	Large Language Model	大语言模型	基于大规模文本训练的语言模型
VLA	Vision-Language-Action	视觉-语言-动作模型	同时处理视觉、语言并输出动作的模型
AGI	Artificial General Intelligence	通用人工智能	具备通用问题解决能力的人工智能
diffusion model	Diffusion Model	扩散模型	通过逐步去噪生成数据的生成式模型
occupancy network	3D Occupancy Network	3D占据网络	对三维空间每个体素进行占据状态预测的模型

8. 学习资源附录

8.1 核心论文

标题	作者	会议/期刊	年份	核心贡献
World Models	David Ha, Jürgen Schmidhuber	NeurIPS 2018	2018	提出V-M-C三模块框架，开启现代世界模型研究
Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model (MuZero)	Schrittwieser et al.	Nature	2020	不依赖规则知识，学出内部模型+MCTS实现通用游戏AI
Dream to Control: Learning Behaviors by Latent Imagination (Dreamer V1)	Danijar Hafner et al.	ICLR 2020	2019	RSSM架构，首次在潜在空间完成策略学习全流程
Mastering Atari with Discrete World Models (Dreamer V2)	Danijar Hafner et al.	ICLR 2021	2020	离散化潜在表示，Atari超越人类平均水平
Mastering Diverse Domains through World Models (Dreamer V3)	Danijar Hafner et al.	arXiv 2023	2023	单套超参数横跨150+任务，通用性里程碑
TD-MPC2: Scalable, Robust World Models for Continuous Control	Nicklas Hansen et al.	ICLR 2024	2023	多任务连续控制世界模型新SOTA
STORM: Efficient Stochastic Transformer based World Models	Weipu Zhang et al.	NeurIPS 2023	2023	离散潜变量+单token Transformer世界模型
Diamond: Diffusion as World Model	Eloi Alonso et al.	NeurIPS 2024	2024	扩散模型作为世界模型，HNS 146%创纪录
V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning	Meta AI	arXiv 2025	2025	动作条件JEPA，非生成式世界模型工程化拐点
Cosmos World Foundation Model Platform for Physical AI	NVIDIA	arXiv 2025	2025	世界基础模型平台，从仿真器到微调的全套方案
DreamDojo: Learning World Models from Human Videos	NVIDIA	arXiv 2026	2026	从人类视频迁移学习的机器人世界模型
Understanding World or Predicting Future? A Comprehensive Survey of World Models	Jingtao Ding et al. (清华)	ACM CSUR	2024	最全面的世界模型综述，包含定义分类和应用全景
Learning to Model the World: A Survey of World Models in Artificial Intelligence	中科院/MBZ/NTU/Oxford	TechrXiv	2026	四大分支分类法（观测生成/潜空间/RL驱动/对象中心）

8.2 综述文章

Understanding World or Predicting Future? A Comprehensive Survey of World Models — 清华团队，ACM CSUR，最全面的WM综述
Learning to Model the World: A Survey of World Models in Artificial Intelligence — 中科院联合多机构，2026年最新综述
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond — arXiv 2024
How Far is Video Generation from World Model: A Physical Law Perspective — PhyWorld, ICML 2025

8.3 英文资源

官方博客：

OpenAI: Video generation models as world simulators
NVIDIA: Cosmos 世界基础模型平台
Google DeepMind: Genie: Generative Interactive Environments
World Models 官方页: World Models Project Page

论文项目页：

Dreamer系列: GitHub — danijar/dreamerv3
V-JEPA 2: GitHub — facebookresearch/vjepa2
NVIDIA Cosmos: GitHub — nvidia-cosmos/cosmos-predict2

课程/视频：

Danijar Hafner 讲座: DreamerV3 at MIT
Yann LeCun A Path Towards Autonomous Machine Intelligence — 2022技术报告

8.4 中文资源

知乎：

理解世界还是预测未来？清华大学世界模型全面综述
世界模型最新综述！中科院联合MBZ、NTU、Oxford系统梳理前沿进展
从专用模型到通用模型：2025年的最后一篇世界模型综述

公众号/科技媒体：

这是一篇把"世界模型"讲明白的科普级综述！ — Datawhale，腾讯新闻
AI世界模型全面综述：理解世界还是预测未来？ — 51CTO
LeCun世界模型出2代了，62小时搞定机器人训练 — 36氪

Datawhale 开源教程：learn-world-model 从0学世界模型

8.5 代码实现

官方实现：

Dreamer V3 (danijar)
V-JEPA (Meta)
V-JEPA 2 (Meta)
NVIDIA Cosmos
TD-MPC2
MineWorld (微软)

全面整理：

清华世界模型综述论文仓库 — 包含全面的论文列表和代码链接
Awesome World Models — 中科院综述配套资源
Datawhale 世界模型学习教程 — 从0到入门

本报告由 Pierce的AI 自动生成 | 2026年6月28日
参考的主要综述：清华团队 ACM CSUR 综述 (Ding et al., 2024) · 中科院联合综述 (2026) · Datawhale 科普综述

打赏