阿里达摩院发布《AI与具身智能融合发展白皮书》,提出VLA模型三大发展方向
当AI不再只是屏幕后的"工具",而是能看、能听、能思考、能行动的"伙伴",我们正站在智能文明的新起点。
2026年2月,人工智能产业迎来一个历史性拐点。
阿里巴巴达摩院正式发布《AI与具身智能融合发展白皮书》,系统阐述了视觉 - 语言 - 动作模型(VLA)的未来演进路径,并首次提出VLA模型三大发展方向。这一发布,标志着具身智能技术从"动作执行"正式迈向"认知理解"的关键一步。
与此同时,达摩院开源了具身智能大脑基础模型RynnBrain,一次性放出包括业界首个30B MoE架构在内的7个全系列模型,在16项具身开源评测榜单上刷新纪录,超越谷歌Gemini Robotics ER 1.5等行业顶尖模型。
这不仅仅是一次技术发布,更是中国AI产业在具身智能赛道上的一次重要亮剑。
01 具身智能的"智力高墙"正在被打破
具身智能(Embodied Intelligence)是人工智能与机器人学交叉的前沿领域,强调智能体通过身体与环境的动态交互实现自主学习和进化,其核心在于将感知、行动与认知深度融合。
这个概念最早可追溯至1950年图灵的论文《Computing Machinery and Intelligence》,但直到近年来,随着大模型技术的成熟,具身智能才真正迎来爆发式增长。
然而,现实很骨感。
过去两年,具身智能从学术概念迅速膨胀为一级市场最拥挤的赛道。融资额连创新高,人形机器人登上春晚,一个后空翻都能制造短暂的热搜。但科研人员将模型和硬件真机部署之后,发现离真正的大规模应用还有比较大的鸿沟。
这堵"智力高墙"主要体现在三个方面:
第一,传统具身模型常因缺乏长期记忆而"健忘"。 机器人干活干一半被打断,再回头很容易就会忘记"刚才干到哪了"。
第二,脱离物理上下文而产生"幻觉"。 机器人无法理解物理世界的基本规律,比如抓握力度不足会导致杯子滑落。
第三,开发流程碎片化,数据、模型与机器人本体适配困难。 每个团队都在重复造轮子,无法形成合力。
阿里达摩院的RynnBrain模型正是为了从底层逻辑上推倒这堵墙而生。
02 VLA模型:具身智能的"破局者"
在人工智能技术浪潮中,VLA(视觉 - 语言 - 动作)模型通过构建"感知 - 推理 - 行动"完整闭环,正重塑机器人与物理世界的交互范式。
什么是VLA模型?
简单来说,VLA模型让机器人具备"看懂、听懂、行动"的能力。例如,机器人能根据"请把那本红色的书递给我"完成识别、规划与抓取。
其技术架构由三大核心构成: - 视觉编码器:理解环境中的视觉信息 - 语言理解模块:解析自然语言指令 - 动作生成器:输出可执行的动作序列
2025年8月,在世界机器人大会上,阿里达摩院宣布开源自研的VLA模型RynnVLA-001-7B、世界理解模型RynnEC,以及机器人上下文协议RynnRCP,推动数据、模型和机器人的兼容适配,打通具身智能开发全流程。
RynnVLA-001的核心创新在于: 它能从第一人称视角的视频中学习人类的操作技能,隐式迁移到机器人手臂的操控上,从而让机械臂操控更加连贯平滑,更接近于人类动作。
但这只是开始。
03 白皮书核心:VLA模型三大发展方向
根据达摩院发布的《AI与具身智能融合发展白皮书》,VLA模型的未来演进将聚焦于以下三大方向:
方向一:世界模型与动作模型的深度融合
传统VLA模型能生成动作,但通常只是输出动作,缺乏对动作结果的深度理解。而世界模型能够基于当前状态与动作预测未来状态,理解环境物理规律,但无法直接生成动作指令。
这二者功能互补却相互割裂。
达摩院提出的WorldVLA模型,首次将世界模型(World Model)和动作模型(Action Model/VLA Model)融合到了一个模型中。WorldVLA是一个统一了文本、图片、动作理解和生成的全自回归模型。
这意味着什么?
在机械臂执行抓取任务时,它不再仅凭即时视觉做出判断,而是能在内部模拟"抓握力度不足导致杯子滑落"的情景,从而精准调整动作。AI不仅限于"遵循指令",更能"洞悉规律、预知结果"。
正如达摩院具身智能实验室负责人赵德丽所言:"RynnBrain首次实现了大脑对物理世界的深度理解与可靠规划,为大小脑分层架构下的通用具身智能迈出了关键一步。"
方向二:时空记忆与物理空间推理能力的增强
传统机器人缺乏"记时间、记空间、记经验"的能力。RynnBrain创造性地引入了时空记忆和物理世界推理两项核心能力。
时空记忆能力使机器人能在完整历史轨迹中回溯物体位置、目标区域乃至运动路径,实现全局状态感知。内置的800个时空记忆单元,让机器人能像人类一样记住"刚才把杯子放在哪里了"。
物理空间推理能力让机器人理解物理世界的基本规律。例如,从未见过"气球"的机器人,通过已知的"轻质物体易被风吹动"的规则,预判触碰气球可能导致其飘走。
在16项具身开源评测榜单上,RynnBrain刷新纪录,超越谷歌、英伟达等行业巨头的同类模型。这一突破标志着具身智能从"反应式"向"认知式"的范式转变。
方向三:标准化协议与生态体系建设
具身智能领域正经历快速发展,但仍面临开发流程碎片化、数据模型与机器人本体适配困难等关键挑战。
达摩院将MCP(模型上下文协议)理念引入具身智能领域,首次提出并开源RCP(机器人上下文协议)。RynnRCP是一套完整的机器人服务协议和框架,能够实现从传感器数据采集、模型推理到机器人动作执行的完整工作流程打通。
它之于具身智能,恰如MCP之于AI智能体——在异构的数据、模型与机器人本体之间,构筑了一座无缝连接的桥梁。
目前,RynnRCP已成功适配Pi0、GR00T N1等多个主流机器人平台。开源是人工智能技术快速发展的重要推手,大语言模型的普及、Transformer架构的一统江湖,都离不开开源生态的支撑。具身智能作为技术复杂度更高的领域,更需要开源生态的助力。
04 产业落地:从"技术概念"到"生产力工具"
36氪研究院近日发布的《2026年具身智能产业报告》指出,具身智能正从"技术概念"加速迈向"生产力工具"。
报告预测,到2026年,大模型赋予的认知能力、场景深耕带来的落地价值与生态协同构建的产业基础,将成为推动该技术规模化落地的三大核心驱动力。
这一判断已在CES 2026机器人展会上得到初步验证——多款具身智能机器人实现高完成度任务执行,引发全球关注。
产业落地层面已形成三大应用方向:
- 具身智能机器人领域
:星海图G0模型通过500小时真实数据实现多场景泛化操作,骄子智鲸AI平台在交通基建领域构建工程全周期智能服务 - 智能驾驶赛道
:2025年迎来"VLA上车元年",英伟达GR00T模型使城市导航辅助驾驶能力大幅提升 - 工业制造场景
:2025年11月,凯奇具身智能与福田卡车制造中心的技术合作覆盖地板焊接、车架横梁冲压等7类工业场景
2025年,"具身智能"首次写入政府工作报告,成为重点培育的未来产业之一。"十五五"规划建议提出,推动具身智能等成为新的经济增长点。
05 深度思考:VLA之后,具身智能的下一个"奇点"在哪里?
站在2026年这个时间节点回望,我们清晰地看到,全球科技发展的主轴在过去两年间发生了根本性的位移。
如果说2022年至2025年是大型语言模型通过ChatGPT等应用实现"智慧涌现"的启蒙时代,那么2026年则标志着人工智能从数字世界的"比特"向物理世界"原子"的大规模迁徙。
但问题也随之而来:
VLA模型真的能解决具身智能的所有问题吗?
有观点认为,当前VLA模型普遍存在参数庞大、计算成本高昂、部署困难的问题,并且所需的数据集也非常庞大,而数据的来源又比较有限。合成数据虽然能解决一部分问题,但大多数研究者认为,真实的数据对于VLA的训练至关重要,而真实的数据存在很大获取的难度。
另一种声音则认为: VLA是解决未来辅助驾驶乃至自动驾驶和人形机器人泛化性的选项之一,但世界模型代表了更底层的认知方式,强调物理规律和空间理解,更适合长期演进。
星动纪元创始人、清华大学交叉信息研究院助理教授陈建宇在2025世界机器人大会上表示:"世界模型是VLA的一个路径,未来5年家庭机器人会爆发。"
或许,答案不在于二选一,而在于融合。
达摩院的WorldVLA已经给出了方向:将世界模型与VLA模型深度融合,让机器人既能"洞悉规律",又能"执行动作"。这或许是通往通用具身智能的最短路径。
06 结语:智能文明的"伙伴时代"正在到来
2026年,人工智能产业迎来历史性拐点——从"工具时代"迈向"伙伴时代"。
这一年,大模型、多模态、具身智能三大技术方向不再各自为战,而是编织成一张协同演进的技术矩阵,共同推动AI从虚拟世界走向物理空间,从被动响应转向主动理解。
阿里达摩院的这次发布,不仅是一次技术突破,更是对整个行业的一次重要启示:具身智能的竞争已从硬件"上半场"进入"大脑"主导的"下半场"。
当机器人能够像人类一样"记时间、记空间、记经验",当AI能够"洞悉规律、预知结果",当异构的数据、模型与机器人本体能够无缝对接——我们距离真正的通用具身智能,又近了一步。
这条路还很长,但方向已经清晰。
正如达摩院在白皮书中所言:"我们期待它加速AI从数字世界走向真实物理场景的落地进程。"
智能文明的"伙伴时代",正在到来。
作者:镜水
公众号:鏡水濁塵——AI领域观察、思考与践行
请在微信客户端打开


