核心要点速览
当前智能驾驶行业已形成两大核心技术路线阵营:VLA(视觉-语言-动作)路线与世界模型(World Model)路线。VLA阵营以小鹏、理想、元戎启行为代表,强调多模态融合与语言引导的决策能力,已实现量产上车;世界模型阵营以华为、蔚来、Momenta为代表,主张通过构建物理世界的内部表征实现因果推理与长时序规划。值得注意的是,两大路线正从竞争走向融合,小鹏第二代VLA、理想MindVLA-o1、Momenta R7均尝试将两者优势结合。黑芝麻智能、轻舟智航等供应商也明确提出"VLA+世界模型"将是高阶智驾的最佳技术路径。
---
一、世界模型路线阵营(World Model)
1. 华为(乾崑智驾ADS 4/5)
技术方案:WEWA架构(World Engine + World Action Model)
华为是世界模型路线的坚定代表,明确拒绝VLA路径。华为智能汽车解决方案BU CEO靳玉志多次公开表示:"华为不会走向VLA的路径,我们认为这样的路径看似取巧,其实并不是走向真正自动驾驶的路径。"
核心技术架构:
- World Engine(世界引擎):部署在云端,基于"难例"扩散生成模型,可生成高质量、高密度的难例场景数据,用于模型训练与验证
- World Action Model(WA,世界行为模型):部署在车端,直接从视觉、声音等多模态信息输入生成驾驶行为,省掉语言(Language)中间环节
- 技术路径:V(视觉)+ L(激光雷达)→ A(动作),而非VLA的"视觉→语言→动作"两次转译
靳玉志的通俗比喻:VLA像是英语初学者,先想中文再说英语,过程繁琐且不地道;而世界模型则像是英语母语者,直接用英语思维,流利自如。
最新进展:
- 2025年4月发布ADS 4,采用WEWA架构,使端到端时延降低50%,通行效率提升20%,重刹率降低30%
- 2026年将发布ADS 5,继续深化世界模型能力
- 截至2026年,搭载华为乾崑智驾的车辆已突破100万辆,累计辅助驾驶里程超过72亿公里
技术特点:
- 强调多传感器融合(摄像头+激光雷达),降低车端算力要求,主算力需求置于云端
- 采用"一段式端到端"架构,保留人工规则校验作为过渡方案
- 认为VLA的100B参数底座模型大量能力用于语言理解,驾驶任务利用率不高,属于"好钢没用在刀刃上"
来源链接:
- [拆解WEWA,华为ADS 4的智驾方法论](https://chejiahao.m.autohome.com.cn/info/21830514)
- [智驾技术的终极路线,华为车BU CEO 靳玉志采访](https://post.smzdm.com/p/a46m825w)
- [2025年汽车行业VLA技术路线分化](https://www.huxiu.com/article/4823626.html)
- [华为靳玉志:ADS 4比旧版本安全多了](https://new.qq.com/rain/a/20260118A074VQ00)
---
2. 蔚来(NIO World Model)
技术方案:NWM(NIO World Model)+ 强化学习
蔚来是中国首个公开世界模型技术路线的车企,由自动驾驶研发副总裁任少卿主导。蔚来认为世界模型是"未来一定要做的事,这点没有悬念"。
核心技术架构:
- NWM(NIO World Model):车端部署的世界模型,通过无监督学习/自监督学习直接处理原始传感器数据,而非依赖标注数据
- 技术路径:视觉生成模型 + 自主监督学习,一栈式解决问题,车端算力要求更高
- 强化学习:任少卿力推加入强化学习模型,认为这是把短时记忆的模仿学习升级为可处理长时序智能体的关键
核心能力:
- 能够在100毫秒内推演216种可能的行驶轨迹
- 对前面3秒的行车数据进行分析,仅用0.1秒就能推演出长达120秒的模拟路况
- 引入强化学习实现"洗数据"优化决策,延长上下文,释放长时序规划与推理能力
最新进展:
- NWM 2.0(2026年1月推送):全新底层逻辑,引入强化学习技术,首次实现高速、城市、泊车全场景框架统一
- 解决NWM 1.0时代"抖动"问题,超车更敏捷,无效变道显著减少
- 自研神玑NX9031芯片大规模量产上车,与4 Orin平台代码共享率达95%以上
- 任少卿表示:"在国内,实现完整强化学习的系统,目前只有蔚来这一个"
技术理念:
- 任少卿认为没有哪家公司像蔚来一样"变态",用更重的训练、更长的周期,基于高算力+多传感器+全新架构,换取"一套真正接近物理世界的能力栈"
- 世界模型路线与Yann LeCun推动的JEPA、OpenAI的Sora等全球AI巨头方向一致
来源链接:
- [春节前必更!蔚来智驾 NWM 2.0 解决变道抖动](https://chejiahao.autohome.com.cn/info/24748830)
- [对话任少卿:蔚来世界模型 2.0 之变](https://chejiahao.m.autohome.com.cn/info/24797846)
- [蔚来李斌设26年智驾目标,冲刺年度三版更新](https://news.yiche.com/hao/wenzhang/106817523/)
- [解读蔚来NWM 2.0:一场技术路线的豪赌](https://post.smzdm.com/p/akogdl3e)
---
3. Momenta(R7强化学习世界模型)
技术方案:R7强化学习世界模型
Momenta是第三方智驾供应商中最早量产一段式端到端大模型的企业,2026年3月正式宣布下一代R7强化学习世界模型,并全球首发搭载于上汽大众旗舰SUV ID.ERA 9X。
核心技术架构:
- R7强化学习世界模型:在强化学习基础上引入世界模型,让AI能够基于更完整的物理世界信息做出预测和规划
- 技术路径:世界模型(World Model)+ 强化学习(Reinforcement Learning)
- 飞轮大模型R6:2024年推出的基于强化学习的一段式端到端大模型,能够在开放环境中自主探索试错
为什么选世界模型而非VLA?
Momenta CEO曹旭东从直觉和技术两个角度给出解释:
1. 直觉角度:人类司机开车不需要掌握写代码、解数学题等通用能力,核心要求是对物理世界运行规律的理解、极限场景的预判和应急反应能力。世界模型恰好具备这样的核心能力。
2. 技术角度:VLA底座模型参数量通常在100B左右,大量参数用于语言理解,但驾驶任务利用率不高,属于"好钢没用在刀刃上"。曹旭东总结:"VLA对自动驾驶是锦上添花,很难雪中送炭"。
核心优势:
- 世界模型能够学习物理规律,通过强化学习收集大量长尾场景,在反复训练中锻炼驾驶"肌肉记忆"
- 仿真对于真实数据的替代效应"以一当万",大幅降低数据采集和训练成本
- 具备更强的认知与推演能力,能主动推演未知场景的多种演变路径
最新进展:
- R7世界模型将于2026年搭载于上汽大众ID.ERA 9X
- 已累计170余个定点车型、70余款量产车型、超70万搭载车辆
- 城市NOA市占率突破60.1%,复杂环岛通过率较行业平均高27%
来源链接:
- [Momenta不选VLA选世界模型,大众首发!曹旭东](https://www.qbitai.com/2026/03/391474.html)
- [曹旭东:Momenta R7强化学习世界模型相比FSD毫不逊色](https://www.eet-china.com/mp/a481076.html)
- [Momenta曹旭东:世界模型是自动驾驶核心,VLA路线难突破](https://k.sina.com.cn/article_7879996580_m1d5af34a403301pwxe.html)
- [Momenta R7:世界模型开始上车](https://www.ednchina.com/technews/39237.html)
---
4. 文远知行(WeRide GENESIS)
技术方案:WeiRide GENESIS物理AI世界模型 + 一段式端到端
文远知行是车圈第一个真正投入使用的物理AI世界模型的开发者,由创始人兼CEO韩旭主导。
核心技术架构:
- WeiRide GENESIS:物理AI世界模型,将现实物理世界场景数字化或直接用AI生成技术"搭建"虚拟世界,按需生成新场景(包括极端雨雪、火灾地震等)
- WePilot 3.0:与博世合作开发的一段式端到端辅助驾驶解决方案,车端部署
- 技术路径:云端世界模型(仿真训练)+ 车端一段式端到端(实时推理)
世界模型核心能力:
- 在虚拟世界中轻松添加快递小哥、违章车辆、闯红灯行人等"AI主体",为自动驾驶系统提供高强度训练和验证
- 构建"AI指标"和"AI诊断"模块,对自动驾驶系统执行效果进行评估、溯源甚至修复
- 仿真对真实数据的替代效应"以一当万",将数据采集和训练成本降低75%
最新进展:
- WePilot 3.0于2025年8月推出,11月首批搭载于奇瑞星途星纪元ES与星纪元ET
- 在第一电动2025智驾大赛台州站和温州站中,搭载该方案的星途星纪元ES以零接管取得两连冠
- 从开发到量产仅用时18个月,打破行业记录
- 车队规模超1600台,公开运营近6年,自动驾驶里程数超5500万公里
韩旭的比喻:"数据过去就是钻石矿,现在我可以人工合成钻石了,钻石已经没有那么值钱了"。
来源链接:
- [智驾黑马来袭?文远知行靠世界模型+一段式端到端一鸣惊人](https://chejiahao.m.autohome.com.cn/info/24824763)
- [智驾黑马来袭?文远知行靠世界模型+一段式端到端一鸣惊人](https://chejiahao.autohome.com.cn/info/24824763)
- [智驾黑马来袭?文远知行靠世界模型+一段式端到端一鸣惊人](https://hao.yiche.com/wenzhang/107277182/)
---
5. 地平线(Epona世界模型)
技术方案:Epona自回归扩散世界模型
地平线是芯片供应商中世界模型技术研究的领先者,2025年联合清华、北大、南大等单位中稿ICCV 2025的自动驾驶世界模型工作——Epona。
核心技术架构:
- Epona:自回归扩散世界模型,融合扩散模型与自回归模型优势
- 核心创新:
- 解耦的时空分解:时空分离处理,采用GPT风格变换器处理时间动态,双重扩散变换器分别处理空间渲染和轨迹生成
- 异步多模态生成:轨迹规划与视觉生成解耦,两个专门扩散变换器异步生成3秒车辆轨迹和单个下一帧
- 链式前向训练策略:解决自回归循环中的误差累积和内容漂移问题
多功能能力:
- 生成一致的分钟级高分辨率未来驾驶场景
- 通过多样化轨迹进行控制
- 理解真实世界交通知识
- 预测未来轨迹,作为端到端实时运动规划器
量产方案:
- 即将量产的城区辅助驾驶系统采用"一段式端到端"技术架构
- 征程6M:性价比高,主要用于高速NOA,已获大众、奇瑞、吉利等订单
- 征程6P:分HSD(软硬一体)和芯片授权两种模式
技术观点:
地平线副总裁吕鹏表示:"不管是WA还是VLA都是基于端到端做的。没有端到端的基座,很难把一些新的模态做引入,也就没办法更好地提升产品性能"。
来源链接:
- [地平线提出Epona:首个自回归扩散自动驾驶驾驶模型(ICCV 2025)](http://mp.weixin.qq.com/s?__biz=MzU2NjU3OTc5NA==&mid=2247602169&idx=1&sn=555f3d3037466cefca2b50562c5ca8c1)
- [分钟级长视频生成!地平线Epona:自回归扩散式的端到端自动驾驶世界模型](https://reportify.cn/social-media/695453639776121)
- [地平线吕鹏:端到端是基石,做不好端到端就做不好VLA](https://www.21jingji.com/article/20251222/herald/be6d53d4e0ec78a99079818d5d6451c8.html)
---
二、VLA路线阵营(Vision-Language-Action)
6. 小鹏汽车(第二代VLA)
技术方案:第二代VLA(去掉语言转译的VLA)
小鹏是VLA路线的坚定推进者,但2025年下半年开始探索"去掉语言转译"的第二代VLA,实质是向世界模型靠拢。
技术演进路径:
- 第一代VLA:采用"云端强化-端侧蒸馏"路径,构建多级世界模型体系
- 第二代VLA:去掉"语言转译"环节,从V-L-A改成V/L-A,直接学习物理世界交互规律
核心技术架构:
- 云端基座模型:参数达720亿,采用近1亿Clips视频训练数据,3万卡云端智算集群
- 车端模型:参数量将达到"数十亿",计划2026年底前提升至200亿级
- 算力支持:三颗自研图灵AI芯片,总算力高达2250TOPS
为什么去掉语言转译?
小鹏通用智能中心负责人刘先明解释:
- VLA模型中的多模态特征对齐可能存在信息丢失问题
- 一个6秒视频片段包含大量视觉信息,即使用上千字描述也会比直接视频呈现存在信息损失,"这就是所见非所得"
- 去掉语言环节是最简单、简洁的方式,可直接利用海量真实驾驶视频训练,无需人工数据标注
最新进展:
- 第二代VLA于2026年3月开启推送,已应用于小鹏G7等车型
- 何小鹏称第二代VLA是小鹏走向L4的第一个版本
- 通过"物理图灵测试",乘客很难分辨是司机还是AI在开车
- 迭代预期实现复杂小路平均接管里程提升13倍
何小鹏的判断:
- "我们已经完全到达从L2跨越到L4的过程"
- 1-3年内有望达到L4水平
- 2025年底推出真L3级别软件和硬件冗余能力的自动驾驶
来源链接:
- [何小鹏:「我们已经完全到达从L2跨越到L4的过程」](https://chejiahao.autohome.com.cn/info/24904756)
- [小鹏第二代VLA3月19日开启推送](http://www.news.cn/auto/20260318/a9deb14371084ed79b431c2bc2b88a7b/c.html)
- [小鹏、蔚来智驾团队吹哨换人背后,是世界模型和VLA模型路线之争](https://chejiahao.autohome.com.cn/info/23149811)
- [第二代VLA落地之后,小鹏不想只做一家卖车公司](https://www.tmtpost.com/7924461.html)
---
7. 理想汽车(MindVLA / MindVLA-o1)
技术方案:MindVLA司机大模型 / MindVLA-o1下一代基座模型
理想是VLA路线的积极推动者,同时利用世界模型进行云端仿真测试,2026年3月发布MindVLA-o1下一代基座模型。
技术演进路径:
- 2024年:推出端到端+VLM双系统模型
- 2025年:将空间理解、语言理解与行动决策统一到VLA司机大模型框架
- 2026年3月:发布MindVLA-o1下一代自动驾驶基座模型,引入预测式隐世界模型
MindVLA-o1核心技术架构:
- 原生3D ViT编码器:直接工作于真实物理空间,学习空间结构、位置关系与语义信息
- 预测式隐世界模型:在隐空间中推演未来数秒场景演化,实现时空联合建模
- MoE混合专家架构:LLM基座模型采用MoE架构和稀疏注意力技术,确保模型规模增长不降低推理效率
- Diffusion模型:将动作词元解码为优化轨迹,结合自车行为生成和他车轨迹预测
核心能力:
- 听得懂、看得见、找得到,将汽车从运输工具转变为"贴心的专职司机"
- 可通过语音指令改变车辆路线和行为,通过照片识别用户位置并自主寻找车位
- 同时驱动车辆与机器人,指向具身智能新范式
云端世界模型应用:
- 理想引入云端"世界模型"概念(WM),作为训练与测试的"考官"
- 通过真题库、错题库和生成题库验证系统避险能力
- 可通过WM每日生成数千万个测试用例,验证E2E+VLM系统的安全性和鲁棒性
理想基座模型负责人詹锟:MindVLA-o1能让自动驾驶"看得更远、想得更深、行得更稳、进化更快、部署更高效"。
来源链接:
- [都2026年了,真有必要还争VLA和世界模型哪个更好?](https://www.36kr.com/p/3730949951091202)
- [理想汽车下一代基座模型Mind VLA-o1的架构和算法应用解析](https://nev.ofweek.com/2026-03/ART-77015-8140-30683418.html)
- [理想汽车发布下一代自动驾驶架构MindVLA](http://mp.weixin.qq.com/s?__biz=MjM5NDIxNzkyMA==&mid=2656077596&idx=3&sn=f5688d9a7991b6a1e83f87c85264b3c8)
---
8. 元戎启行(DeepRoute VLA)
技术方案:DeepRoute IO 2.0 + 自研VLA模型
元戎启行是第三方智驾供应商中最早量产VLA技术路线的玩家,2025年8月发布DeepRoute IO 2.0平台与自研VLA模型。
核心技术架构:
- VLA统一基座模型:整合视觉感知、语言理解、动作决策三大核心能力,避免多模型适配导致的安全稀释
- 思维链(CoT)决策:凭借"思维链"决策能力,提升复杂场景下的安全性
- 40B参数智驾基座模型:统一Driver、Analyst、Critic三大能力,让驾驶系统从"执行系统"升级为"认知系统"
元戎启行CEO周光的观点:
- "虽然目前VLA仍处于早期,相当于'幼年期',但它的技术上限已经远超传统端到端方案"
- "VLA的下限,超过端到端上限"
- 基座大模型是推动智驾认知进化的核心路径,2026年将成为多模态智驾元年
最新进展:
- 已达成5个定点合作项目,首批量产车已进入市场
- 累计交付超10万辆搭载城市NOA辅助驾驶系统的量产车型
- 与长城、吉利等头部车企深度绑定,确保每款合作车型经过充分安全验证
技术判断:
传统小模型智驾已陷入发展瓶颈,存在显著的"跷跷板效应"——同一套系统在不同时段、不同城市表现差异明显。
来源链接:
- [智驾下半场告别数量崇拜,元戎启行靠理性路线领跑](https://www.csdn.net/article/2026-03-02/158570776)
- [智能驾驶,没有中场战事只有无限战争](http://www.36kr.com/p/3657097396314505)
- [元戎启行周光:基座模型推动认知进化,2026年迎多模态智驾元年](http://auto.ce.cn/auto/gundong/202604/t20260415_2906837.shtml)
- [智驾路线暗战升级:元戎启行理想向左,华为博世向右](https://xueqiu.com/4094736679/350310952)
---
9. 小米汽车(XLA认知大模型)
技术方案:XLA认知大模型(VLA + 世界模型并存架构)
小米采用"VLA + 世界模型"协同架构,由XLA认知大模型负责人陈龙主导,陈龙曾在英国Wayve任职,是将VLA模型引入辅助驾驶领域的先行者。
技术演进路径:
- 2024年初:小米辅助驾驶架构处于"端到端+VLM"范式
- 2025年11月前:先让大模型"长到十八岁"(基座模型抚养成人)
- 2025年11月后:用潜空间推理(Latent CoT),让模型真正学会驾驶
核心技术架构:
- 世界模型作为"模拟器":生成虚拟环境训练VLA"大脑"
- VLA作为"大脑":在虚拟环境中学习驾驶
- 潜空间推理(Latent CoT):区别于传统语言思维链,在潜空间内进行推理
陈龙的技术观点:
- 端到端的本质是模仿学习,VLA直接把大模型的能力赋予自动驾驶,世界模型更像"端到端plus"
- VLA可以学习人类高层次的知识(交通规则/价值观)
- VLA的无损传递是相比端到端+VLM的最大提升
- 智驾下一阶段必须从"数据驱动"升级为"认知驱动"
最新进展:
- 小米大模型发展路线:从LLM预训练,到VLM预训练,再到具身预训练,最后到自驾VLA
- 已推出MiMo、MiMo-vl和MiMo-Embodied等模型
- 期待后续MoMo-VLA的发布
来源链接:
- [21对话|小米陈龙:用一套技术架构,让VLA与世界模型并存](https://www.21jingji.com/article/20260413/herald/1b037cb81459b85b426769d75c3bcf35.html)
- [认知驱动下的小米智驾,从端到端、世界模型再到VLA](https://blog.csdn.net/cv_autobot/article/details/155198094)
- [21对话|小米陈龙:用一套技术架构,让VLA与世界模型并存](https://www.163.com/dy/article/KQE79GG005199NPP.html)
---
三、融合路线阵营(VLA + 世界模型)
10. 轻舟智航(VLA + 世界模型统一架构)
技术方案:VLA + 世界模型融合的统一端到端架构
轻舟智航明确提出"VLA+世界模型"统一架构,认为两者融合是迈向L4的唯一正解。
当前量产方案:
- 单征程6M芯片实现一段式端到端:在128TOPS算力上实现"一段式端到端+强化学习"架构
- Flow-Matching Planner:解码出他车预测和自车多模态轨迹
- Safe RL(结合规则的强化学习):对自车轨迹进行安全优化
下一代VLA + 世界模型架构:
- 输入层:激光雷达、图像、导航、语音指令
- World Encoder:输出Object、OCC、BevRG等显性中间表征
- Transformer Decoder:输出COT(Chain of Thought)思维链,通过LLM推理环境信息
- 多模态世界解码器:作为生成式模型,预测未来世界动态演化
技术判断:
轻舟智航认为,VLA或世界模型不会是自动驾驶技术的终极答案,两者融合才是通向L4的道路。
最新进展:
- 中高阶智驾方案交付量超100万套,合作车企近10家,覆盖23款车型
- 累计辅助驾驶里程超25亿公里,AEB误触发率低至每40万公里少于1次
- 2026年3月完成D轮新一轮融资1亿美元,加大世界模型+强化学习技术研发
来源链接:
- [轻舟智航亮家底:单征程6M城市NOA上车、VLA与世界模型重磅亮相](https://chejiahao.m.autohome.com.cn/pingan/chejiahao/detailinfo/24784944)
- [轻舟智航L2/L4智驾方案解析:一段式、VLA和世界模型](https://post.smzdm.com/p/arlnp5xz)
- [轻舟的VLA与世界模型架构解读](https://www.eet-china.com/mp/a470297.html)
---
11. 黑芝麻智能(华山A2000支持VLA+世界模型)
技术方案:华山A2000芯片支持VLA+世界模型
黑芝麻智能是芯片供应商中明确支持"VLA+世界模型"