各大智驾供应商世界模型方案及技术路线调研报告_展会资讯_资讯

各大智驾供应商世界模型方案及技术路线调研报告

2026-04-17 10:20

各大智驾供应商世界模型方案及技术路线调研报告

核心要点速览

当前智能驾驶行业已形成两大核心技术路线阵营：VLA（视觉-语言-动作）路线与世界模型（World Model）路线。VLA阵营以小鹏、理想、元戎启行为代表，强调多模态融合与语言引导的决策能力，已实现量产上车；世界模型阵营以华为、蔚来、Momenta为代表，主张通过构建物理世界的内部表征实现因果推理与长时序规划。值得注意的是，两大路线正从竞争走向融合，小鹏第二代VLA、理想MindVLA-o1、Momenta R7均尝试将两者优势结合。黑芝麻智能、轻舟智航等供应商也明确提出"VLA+世界模型"将是高阶智驾的最佳技术路径。

---

一、世界模型路线阵营（World Model）

1. 华为（乾崑智驾ADS 4/5）

技术方案：WEWA架构（World Engine + World Action Model）

华为是世界模型路线的坚定代表，明确拒绝VLA路径。华为智能汽车解决方案BU CEO靳玉志多次公开表示："华为不会走向VLA的路径，我们认为这样的路径看似取巧，其实并不是走向真正自动驾驶的路径。"

核心技术架构：

- World Engine（世界引擎）：部署在云端，基于"难例"扩散生成模型，可生成高质量、高密度的难例场景数据，用于模型训练与验证

- World Action Model（WA，世界行为模型）：部署在车端，直接从视觉、声音等多模态信息输入生成驾驶行为，省掉语言（Language）中间环节

- 技术路径：V（视觉）+ L（激光雷达）→ A（动作），而非VLA的"视觉→语言→动作"两次转译

靳玉志的通俗比喻：VLA像是英语初学者，先想中文再说英语，过程繁琐且不地道；而世界模型则像是英语母语者，直接用英语思维，流利自如。

最新进展：

- 2025年4月发布ADS 4，采用WEWA架构，使端到端时延降低50%，通行效率提升20%，重刹率降低30%

- 2026年将发布ADS 5，继续深化世界模型能力

- 截至2026年，搭载华为乾崑智驾的车辆已突破100万辆，累计辅助驾驶里程超过72亿公里

技术特点：

- 强调多传感器融合（摄像头+激光雷达），降低车端算力要求，主算力需求置于云端

- 采用"一段式端到端"架构，保留人工规则校验作为过渡方案

- 认为VLA的100B参数底座模型大量能力用于语言理解，驾驶任务利用率不高，属于"好钢没用在刀刃上"

来源链接：

- [拆解WEWA，华为ADS 4的智驾方法论](https://chejiahao.m.autohome.com.cn/info/21830514)

- [智驾技术的终极路线，华为车BU CEO 靳玉志采访](https://post.smzdm.com/p/a46m825w)

- [2025年汽车行业VLA技术路线分化](https://www.huxiu.com/article/4823626.html)

- [华为靳玉志：ADS 4比旧版本安全多了](https://new.qq.com/rain/a/20260118A074VQ00)

---

2. 蔚来（NIO World Model）

技术方案：NWM（NIO World Model）+ 强化学习

蔚来是中国首个公开世界模型技术路线的车企，由自动驾驶研发副总裁任少卿主导。蔚来认为世界模型是"未来一定要做的事，这点没有悬念"。

核心技术架构：

- NWM（NIO World Model）：车端部署的世界模型，通过无监督学习/自监督学习直接处理原始传感器数据，而非依赖标注数据

- 技术路径：视觉生成模型 + 自主监督学习，一栈式解决问题，车端算力要求更高

- 强化学习：任少卿力推加入强化学习模型，认为这是把短时记忆的模仿学习升级为可处理长时序智能体的关键

核心能力：

- 能够在100毫秒内推演216种可能的行驶轨迹

- 对前面3秒的行车数据进行分析，仅用0.1秒就能推演出长达120秒的模拟路况

- 引入强化学习实现"洗数据"优化决策，延长上下文，释放长时序规划与推理能力

最新进展：

- NWM 2.0（2026年1月推送）：全新底层逻辑，引入强化学习技术，首次实现高速、城市、泊车全场景框架统一

- 解决NWM 1.0时代"抖动"问题，超车更敏捷，无效变道显著减少

- 自研神玑NX9031芯片大规模量产上车，与4 Orin平台代码共享率达95%以上

- 任少卿表示："在国内，实现完整强化学习的系统，目前只有蔚来这一个"

技术理念：

- 任少卿认为没有哪家公司像蔚来一样"变态"，用更重的训练、更长的周期，基于高算力+多传感器+全新架构，换取"一套真正接近物理世界的能力栈"

- 世界模型路线与Yann LeCun推动的JEPA、OpenAI的Sora等全球AI巨头方向一致

来源链接：

- [春节前必更！蔚来智驾 NWM 2.0 解决变道抖动](https://chejiahao.autohome.com.cn/info/24748830)

- [对话任少卿：蔚来世界模型 2.0 之变](https://chejiahao.m.autohome.com.cn/info/24797846)

- [蔚来李斌设26年智驾目标，冲刺年度三版更新](https://news.yiche.com/hao/wenzhang/106817523/)

- [解读蔚来NWM 2.0：一场技术路线的豪赌](https://post.smzdm.com/p/akogdl3e)

---

3. Momenta（R7强化学习世界模型）

技术方案：R7强化学习世界模型

Momenta是第三方智驾供应商中最早量产一段式端到端大模型的企业，2026年3月正式宣布下一代R7强化学习世界模型，并全球首发搭载于上汽大众旗舰SUV ID.ERA 9X。

核心技术架构：

- R7强化学习世界模型：在强化学习基础上引入世界模型，让AI能够基于更完整的物理世界信息做出预测和规划

- 技术路径：世界模型（World Model）+ 强化学习（Reinforcement Learning）

- 飞轮大模型R6：2024年推出的基于强化学习的一段式端到端大模型，能够在开放环境中自主探索试错

为什么选世界模型而非VLA？

Momenta CEO曹旭东从直觉和技术两个角度给出解释：

1. 直觉角度：人类司机开车不需要掌握写代码、解数学题等通用能力，核心要求是对物理世界运行规律的理解、极限场景的预判和应急反应能力。世界模型恰好具备这样的核心能力。

2. 技术角度：VLA底座模型参数量通常在100B左右，大量参数用于语言理解，但驾驶任务利用率不高，属于"好钢没用在刀刃上"。曹旭东总结："VLA对自动驾驶是锦上添花，很难雪中送炭"。

核心优势：

- 世界模型能够学习物理规律，通过强化学习收集大量长尾场景，在反复训练中锻炼驾驶"肌肉记忆"

- 仿真对于真实数据的替代效应"以一当万"，大幅降低数据采集和训练成本

- 具备更强的认知与推演能力，能主动推演未知场景的多种演变路径

最新进展：

- R7世界模型将于2026年搭载于上汽大众ID.ERA 9X

- 已累计170余个定点车型、70余款量产车型、超70万搭载车辆

- 城市NOA市占率突破60.1%，复杂环岛通过率较行业平均高27%

来源链接：

- [Momenta不选VLA选世界模型，大众首发！曹旭东](https://www.qbitai.com/2026/03/391474.html)

- [曹旭东：Momenta R7强化学习世界模型相比FSD毫不逊色](https://www.eet-china.com/mp/a481076.html)

- [Momenta曹旭东：世界模型是自动驾驶核心，VLA路线难突破](https://k.sina.com.cn/article_7879996580_m1d5af34a403301pwxe.html)

- [Momenta R7：世界模型开始上车](https://www.ednchina.com/technews/39237.html)

---

4. 文远知行（WeRide GENESIS）

技术方案：WeiRide GENESIS物理AI世界模型 + 一段式端到端

文远知行是车圈第一个真正投入使用的物理AI世界模型的开发者，由创始人兼CEO韩旭主导。

核心技术架构：

- WeiRide GENESIS：物理AI世界模型，将现实物理世界场景数字化或直接用AI生成技术"搭建"虚拟世界，按需生成新场景（包括极端雨雪、火灾地震等）

- WePilot 3.0：与博世合作开发的一段式端到端辅助驾驶解决方案，车端部署

- 技术路径：云端世界模型（仿真训练）+ 车端一段式端到端（实时推理）

世界模型核心能力：

- 在虚拟世界中轻松添加快递小哥、违章车辆、闯红灯行人等"AI主体"，为自动驾驶系统提供高强度训练和验证

- 构建"AI指标"和"AI诊断"模块，对自动驾驶系统执行效果进行评估、溯源甚至修复

- 仿真对真实数据的替代效应"以一当万"，将数据采集和训练成本降低75%

最新进展：

- WePilot 3.0于2025年8月推出，11月首批搭载于奇瑞星途星纪元ES与星纪元ET

- 在第一电动2025智驾大赛台州站和温州站中，搭载该方案的星途星纪元ES以零接管取得两连冠

- 从开发到量产仅用时18个月，打破行业记录

- 车队规模超1600台，公开运营近6年，自动驾驶里程数超5500万公里

韩旭的比喻："数据过去就是钻石矿，现在我可以人工合成钻石了，钻石已经没有那么值钱了"。

来源链接：

- [智驾黑马来袭？文远知行靠世界模型+一段式端到端一鸣惊人](https://chejiahao.m.autohome.com.cn/info/24824763)

- [智驾黑马来袭？文远知行靠世界模型+一段式端到端一鸣惊人](https://chejiahao.autohome.com.cn/info/24824763)

- [智驾黑马来袭？文远知行靠世界模型+一段式端到端一鸣惊人](https://hao.yiche.com/wenzhang/107277182/)

---

5. 地平线（Epona世界模型）

技术方案：Epona自回归扩散世界模型

地平线是芯片供应商中世界模型技术研究的领先者，2025年联合清华、北大、南大等单位中稿ICCV 2025的自动驾驶世界模型工作——Epona。

核心技术架构：

- Epona：自回归扩散世界模型，融合扩散模型与自回归模型优势

- 核心创新：

- 解耦的时空分解：时空分离处理，采用GPT风格变换器处理时间动态，双重扩散变换器分别处理空间渲染和轨迹生成

- 异步多模态生成：轨迹规划与视觉生成解耦，两个专门扩散变换器异步生成3秒车辆轨迹和单个下一帧

- 链式前向训练策略：解决自回归循环中的误差累积和内容漂移问题

多功能能力：

- 生成一致的分钟级高分辨率未来驾驶场景

- 通过多样化轨迹进行控制

- 理解真实世界交通知识

- 预测未来轨迹，作为端到端实时运动规划器

量产方案：

- 即将量产的城区辅助驾驶系统采用"一段式端到端"技术架构

- 征程6M：性价比高，主要用于高速NOA，已获大众、奇瑞、吉利等订单

- 征程6P：分HSD（软硬一体）和芯片授权两种模式

技术观点：

地平线副总裁吕鹏表示："不管是WA还是VLA都是基于端到端做的。没有端到端的基座，很难把一些新的模态做引入，也就没办法更好地提升产品性能"。

来源链接：

- [地平线提出Epona：首个自回归扩散自动驾驶驾驶模型（ICCV 2025）](http://mp.weixin.qq.com/s?__biz=MzU2NjU3OTc5NA==&mid=2247602169&idx=1&sn=555f3d3037466cefca2b50562c5ca8c1)

- [分钟级长视频生成！地平线Epona：自回归扩散式的端到端自动驾驶世界模型](https://reportify.cn/social-media/695453639776121)

- [地平线吕鹏：端到端是基石，做不好端到端就做不好VLA](https://www.21jingji.com/article/20251222/herald/be6d53d4e0ec78a99079818d5d6451c8.html)

---

二、VLA路线阵营（Vision-Language-Action）

6. 小鹏汽车（第二代VLA）

技术方案：第二代VLA（去掉语言转译的VLA）

小鹏是VLA路线的坚定推进者，但2025年下半年开始探索"去掉语言转译"的第二代VLA，实质是向世界模型靠拢。

技术演进路径：

- 第一代VLA：采用"云端强化-端侧蒸馏"路径，构建多级世界模型体系

- 第二代VLA：去掉"语言转译"环节，从V-L-A改成V/L-A，直接学习物理世界交互规律

核心技术架构：

- 云端基座模型：参数达720亿，采用近1亿Clips视频训练数据，3万卡云端智算集群

- 车端模型：参数量将达到"数十亿"，计划2026年底前提升至200亿级

- 算力支持：三颗自研图灵AI芯片，总算力高达2250TOPS

为什么去掉语言转译？

小鹏通用智能中心负责人刘先明解释：

- VLA模型中的多模态特征对齐可能存在信息丢失问题

- 一个6秒视频片段包含大量视觉信息，即使用上千字描述也会比直接视频呈现存在信息损失，"这就是所见非所得"

- 去掉语言环节是最简单、简洁的方式，可直接利用海量真实驾驶视频训练，无需人工数据标注

最新进展：

- 第二代VLA于2026年3月开启推送，已应用于小鹏G7等车型

- 何小鹏称第二代VLA是小鹏走向L4的第一个版本

- 通过"物理图灵测试"，乘客很难分辨是司机还是AI在开车

- 迭代预期实现复杂小路平均接管里程提升13倍

何小鹏的判断：

- "我们已经完全到达从L2跨越到L4的过程"

- 1-3年内有望达到L4水平

- 2025年底推出真L3级别软件和硬件冗余能力的自动驾驶

来源链接：

- [何小鹏：「我们已经完全到达从L2跨越到L4的过程」](https://chejiahao.autohome.com.cn/info/24904756)

- [小鹏第二代VLA3月19日开启推送](http://www.news.cn/auto/20260318/a9deb14371084ed79b431c2bc2b88a7b/c.html)

- [小鹏、蔚来智驾团队吹哨换人背后，是世界模型和VLA模型路线之争](https://chejiahao.autohome.com.cn/info/23149811)

- [第二代VLA落地之后，小鹏不想只做一家卖车公司](https://www.tmtpost.com/7924461.html)

---

7. 理想汽车（MindVLA / MindVLA-o1）

技术方案：MindVLA司机大模型 / MindVLA-o1下一代基座模型

理想是VLA路线的积极推动者，同时利用世界模型进行云端仿真测试，2026年3月发布MindVLA-o1下一代基座模型。

技术演进路径：

- 2024年：推出端到端+VLM双系统模型

- 2025年：将空间理解、语言理解与行动决策统一到VLA司机大模型框架

- 2026年3月：发布MindVLA-o1下一代自动驾驶基座模型，引入预测式隐世界模型

MindVLA-o1核心技术架构：

- 原生3D ViT编码器：直接工作于真实物理空间，学习空间结构、位置关系与语义信息

- 预测式隐世界模型：在隐空间中推演未来数秒场景演化，实现时空联合建模

- MoE混合专家架构：LLM基座模型采用MoE架构和稀疏注意力技术，确保模型规模增长不降低推理效率

- Diffusion模型：将动作词元解码为优化轨迹，结合自车行为生成和他车轨迹预测

核心能力：

- 听得懂、看得见、找得到，将汽车从运输工具转变为"贴心的专职司机"

- 可通过语音指令改变车辆路线和行为，通过照片识别用户位置并自主寻找车位

- 同时驱动车辆与机器人，指向具身智能新范式

云端世界模型应用：

- 理想引入云端"世界模型"概念（WM），作为训练与测试的"考官"

- 通过真题库、错题库和生成题库验证系统避险能力

- 可通过WM每日生成数千万个测试用例，验证E2E+VLM系统的安全性和鲁棒性

理想基座模型负责人詹锟：MindVLA-o1能让自动驾驶"看得更远、想得更深、行得更稳、进化更快、部署更高效"。

来源链接：

- [都2026年了，真有必要还争VLA和世界模型哪个更好？](https://www.36kr.com/p/3730949951091202)

- [理想汽车下一代基座模型Mind VLA-o1的架构和算法应用解析](https://nev.ofweek.com/2026-03/ART-77015-8140-30683418.html)

- [理想汽车发布下一代自动驾驶架构MindVLA](http://mp.weixin.qq.com/s?__biz=MjM5NDIxNzkyMA==&mid=2656077596&idx=3&sn=f5688d9a7991b6a1e83f87c85264b3c8)

---

8. 元戎启行（DeepRoute VLA）

技术方案：DeepRoute IO 2.0 + 自研VLA模型

元戎启行是第三方智驾供应商中最早量产VLA技术路线的玩家，2025年8月发布DeepRoute IO 2.0平台与自研VLA模型。

核心技术架构：

- VLA统一基座模型：整合视觉感知、语言理解、动作决策三大核心能力，避免多模型适配导致的安全稀释

- 思维链（CoT）决策：凭借"思维链"决策能力，提升复杂场景下的安全性

- 40B参数智驾基座模型：统一Driver、Analyst、Critic三大能力，让驾驶系统从"执行系统"升级为"认知系统"

元戎启行CEO周光的观点：

- "虽然目前VLA仍处于早期，相当于'幼年期'，但它的技术上限已经远超传统端到端方案"

- "VLA的下限，超过端到端上限"

- 基座大模型是推动智驾认知进化的核心路径，2026年将成为多模态智驾元年

最新进展：

- 已达成5个定点合作项目，首批量产车已进入市场

- 累计交付超10万辆搭载城市NOA辅助驾驶系统的量产车型

- 与长城、吉利等头部车企深度绑定，确保每款合作车型经过充分安全验证

技术判断：

传统小模型智驾已陷入发展瓶颈，存在显著的"跷跷板效应"——同一套系统在不同时段、不同城市表现差异明显。

来源链接：

- [智驾下半场告别数量崇拜，元戎启行靠理性路线领跑](https://www.csdn.net/article/2026-03-02/158570776)

- [智能驾驶，没有中场战事只有无限战争](http://www.36kr.com/p/3657097396314505)

- [元戎启行周光：基座模型推动认知进化，2026年迎多模态智驾元年](http://auto.ce.cn/auto/gundong/202604/t20260415_2906837.shtml)

- [智驾路线暗战升级：元戎启行理想向左，华为博世向右](https://xueqiu.com/4094736679/350310952)

---

9. 小米汽车（XLA认知大模型）

技术方案：XLA认知大模型（VLA + 世界模型并存架构）

小米采用"VLA + 世界模型"协同架构，由XLA认知大模型负责人陈龙主导，陈龙曾在英国Wayve任职，是将VLA模型引入辅助驾驶领域的先行者。

技术演进路径：

- 2024年初：小米辅助驾驶架构处于"端到端+VLM"范式

- 2025年11月前：先让大模型"长到十八岁"（基座模型抚养成人）

- 2025年11月后：用潜空间推理（Latent CoT），让模型真正学会驾驶

核心技术架构：

- 世界模型作为"模拟器"：生成虚拟环境训练VLA"大脑"

- VLA作为"大脑"：在虚拟环境中学习驾驶

- 潜空间推理（Latent CoT）：区别于传统语言思维链，在潜空间内进行推理

陈龙的技术观点：

- 端到端的本质是模仿学习，VLA直接把大模型的能力赋予自动驾驶，世界模型更像"端到端plus"

- VLA可以学习人类高层次的知识（交通规则/价值观）

- VLA的无损传递是相比端到端+VLM的最大提升

- 智驾下一阶段必须从"数据驱动"升级为"认知驱动"

最新进展：

- 小米大模型发展路线：从LLM预训练，到VLM预训练，再到具身预训练，最后到自驾VLA

- 已推出MiMo、MiMo-vl和MiMo-Embodied等模型

- 期待后续MoMo-VLA的发布

来源链接：

- [21对话｜小米陈龙：用一套技术架构，让VLA与世界模型并存](https://www.21jingji.com/article/20260413/herald/1b037cb81459b85b426769d75c3bcf35.html)

- [认知驱动下的小米智驾，从端到端、世界模型再到VLA](https://blog.csdn.net/cv_autobot/article/details/155198094)

- [21对话｜小米陈龙：用一套技术架构，让VLA与世界模型并存](https://www.163.com/dy/article/KQE79GG005199NPP.html)

---

三、融合路线阵营（VLA + 世界模型）

10. 轻舟智航（VLA + 世界模型统一架构）

技术方案：VLA + 世界模型融合的统一端到端架构

轻舟智航明确提出"VLA+世界模型"统一架构，认为两者融合是迈向L4的唯一正解。

当前量产方案：

- 单征程6M芯片实现一段式端到端：在128TOPS算力上实现"一段式端到端+强化学习"架构

- Flow-Matching Planner：解码出他车预测和自车多模态轨迹

- Safe RL（结合规则的强化学习）：对自车轨迹进行安全优化

下一代VLA + 世界模型架构：

- 输入层：激光雷达、图像、导航、语音指令

- World Encoder：输出Object、OCC、BevRG等显性中间表征

- Transformer Decoder：输出COT（Chain of Thought）思维链，通过LLM推理环境信息

- 多模态世界解码器：作为生成式模型，预测未来世界动态演化

技术判断：

轻舟智航认为，VLA或世界模型不会是自动驾驶技术的终极答案，两者融合才是通向L4的道路。

最新进展：

- 中高阶智驾方案交付量超100万套，合作车企近10家，覆盖23款车型

- 累计辅助驾驶里程超25亿公里，AEB误触发率低至每40万公里少于1次

- 2026年3月完成D轮新一轮融资1亿美元，加大世界模型+强化学习技术研发

来源链接：

- [轻舟智航亮家底：单征程6M城市NOA上车、VLA与世界模型重磅亮相](https://chejiahao.m.autohome.com.cn/pingan/chejiahao/detailinfo/24784944)

- [轻舟智航L2/L4智驾方案解析：一段式、VLA和世界模型](https://post.smzdm.com/p/arlnp5xz)

- [轻舟的VLA与世界模型架构解读](https://www.eet-china.com/mp/a470297.html)

---

11. 黑芝麻智能（华山A2000支持VLA+世界模型）

技术方案：华山A2000芯片支持VLA+世界模型

黑芝麻智能是芯片供应商中明确支持"VLA+世界模型"

打赏