中国人工智能学会在2026年4月发布了最新版《具身智能白皮书》。这份由清华、上海交大、北大、中科院等顶尖研究机构共同编写的100页报告,这不仅是一份技术综述,更是写给行业管理者的一份战略地图。 |
全文严格基于报告原文,不做过度解读——我会把关键的报告原图直接附上,你可以自己判断。
01 第一个洞察:VLA不是终点
目前行业主流都在热议视觉-语言-动作大模型(VLA)。OpenVLA、π0、RDT……这些名字几乎是具身智能的代名词。
但报告明确指出:
"2026年,随着视频模型的进一步成熟,将视频预测和动作预测融合到同一个模型中的世界动作模型(World-Action Model,WAM),提升了基于仅动作预测的VLA的泛化能力,成为了业界关注的新热点。"
这句话背后的信息量很大。报告进一步用整整一节的篇幅论证了这个判断:
▸ NVIDIA已经推出了DreamZero
报告原文描述:"Nvidia遵循这条路线,推出了DreamZero,实现对于新任务,仅需10-20分钟的演示数据即可带来性能提升。"
从需要数千小时训练数据,降低到10-20分钟——这不是改进,这是跃迁。
▸ 蚂蚁灵波、Genie 3、NVIDIA Cosmos Policy相继入场
报告在第五章进一步强调:"Google DeepMind于2025年末发布的Genie 3标志着生成式世界模型的成熟——该模型以24fps实时生成交互式三维环境,无需显式物理引擎即可从数据中习得物理规律。"
而2026年初发布的NVIDIA Cosmos Policy,用报告的原话说——"进一步验证了WAM范式替代传统VLA模型的技术可行性,推动WAM逐步成为学术界与产业界的共识性技术路线。"

▲ 报告图2-1:Physical Intelligence的π0模型与字节跳动的GR-2模型(摘自原报告)
▸ 对管理者意味着什么?
如果你的公司产品路线图仍然完全锁死在VLA架构上,你需要认真回答一个问题:你的技术路线,是否已经落后于行业前沿?
这不是说VLA立即过时——报告明确说它"仍是当前主流技术路线"——而是说,WAM这条路线已经从实验室走向了产业化。谁先完成范式切换,谁就能在下一轮竞争中获得先机。
02 第二个洞察:数据不是辅助,是核心资产
很多创业者还在把数据采集看作一项"运营工作"。但读完报告第三章,你会看到:数据采集能力,正在成为具身智能行业的护城河。
报告给出了一个极其清晰的数据价值层次图:

▲ 报告图3-1:具身智能数据金字塔(摘自原报告)
三类数据各有优劣:真机数据质量最高但成本最高;仿真数据成本低但与现实有差距;互联网视频规模最大但缺乏空间物理信息。报告的原话是:
数据"质量"并不只由数据类型单一决定,不同类型的数据在任务相关性、噪声水平和标注精度等方面各具优势与局限。目前,主流工作将具身智能模型训练分成视觉语言泛化、空间物理知识学习等多个阶段,从而充分利用不同类型的数据集。 |
▸ 三个数据成本变化信号
0.6 元 FastUMI Pro背包式采集设备,单次采集成本(较传统遥操作降低一个数量级) |
63万+ 条 上海人工智能实验室与北大联合发布的InternData-A1合成数据集轨迹量 |
100万 条 智元机器人AgiBot World真机数据集轨迹量,覆盖2976小时真机数据 |
报告用一句话点出了这个趋势的深远意义:
"多重数据变革共同指向低成本、可扩展、自增强的数据新范式。"
▸ 对管理者意味着什么?
第一,数据采集的技术门槛正在被打破。背包式采集、UMI接口、合成数据预训练——这些技术让中小团队也有机会建立数据能力。
第二,但这意味着"谁掌握高质量真机数据"将成为更核心的护城河。因为采集变便宜了,采得多的人反而有了更大优势。这正如手机相机便宜了,但专业摄影师反而更值钱。
第三,数据飞轮机制(从单条演示数据启动→部署→自我增强)正在成为标准配置。报告原文预测:"2026年,数据飞轮将成为具身系统部署的标准配置,推动模型能力持续增长。"你的公司有没有把"构建数据飞轮"列入产品架构设计的一部分?
03 技术架构:管理者必须看懂的三层逻辑
整本白皮书关于技术的内容很多,但核心其实可以用一张图概括:

▲ 报告图2-8:大模型赋能的感知-规划-执行闭环(摘自原报告)
报告把具身智能系统描述为"感知-规划-执行"三层闭环。对管理者而言,这不是技术细节,而是产品决策框架:
技术层 | 核心能力与当前瓶颈 |
感知层 | 多模态环境理解(视觉+触觉+激光雷达融合)。瓶颈是轻量化部署和恶劣环境下的鲁棒性。 |
规划层 | 任务分解与决策(基于大语言模型与世界模型)。瓶颈是长程任务规划和大模型的幻觉问题。 |
执行层 | 精准动作控制(扩散策略、流匹配)。瓶颈是力控精度和灵巧操作。 |
▸ 白皮书列出的三条VLA技术路线
报告明确列出当前三条并行的技术路线,每一条都对应着不同的战略押注:
● 路线一:VLM + 动作模型代表是π0、Figure 02、清华的RDT。优势是语义理解强,缺点是对数据质量要求高。
● 路线二:VGM + 动作模型代表是字节GR-2、清华ATM。优势是能利用互联网视频数据,缺点是视频预测精度影响动作质量。
● 路线三:VLM+Latent+Action代表是智元的ViLLA。报告原文称其"在真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源SOTA模型"。
报告明确指出:"三种技术路线在2024-2025年间取得突破性进展,但目前尚未形成统一范式,呈现多元化创新格局。"这意味着行业的技术路线选择仍然是开放的——这既是机会,也是风险。
04 行业应用:哪个赛道最值得现在进入?
报告第四章详细分析了5个行业的应用现状。我把关键信息提炼为下面这张表,供你参考:
赛道 | 技术成熟度 | 商业成熟度 | 代表案例(报告原文) |
工业制造 | ★★★★ | ★★★★ | Pi-Zero系统、微亿智造创Tron系列、西安中科光电焊接机器人 |
物流仓储 | ★★★★ | ★★★★ | 亚马逊Digit双足机器人、星动纪元L7+ERA-42、智元远征A2-W |
家庭服务 | ★★★ | ★★ | 1X NEO(2026交付)、Figure Helix VLA、千寻Moz1、美的美拉 |
餐饮零售 | ★★★ | ★★★ | 银河通用无人便利店、Galbot G1、NEURA MAiRA |
农业作业 | ★★★★ | ★★★ | 约翰迪尔AutoTrac 2.0、潍柴雷沃CVT、中联重科插秧机 |
能源电力 | ★★★★ | ★★★★ | 联想+复旦电力巡检、南网"悟空"带电作业、铁路安全监测 |
交通物流 | ★★★★ | ★★★ | 特斯拉FSD V12、小鹏XNGP、华为ADS 4.0(2026商用) |
看完这张表,我发现几个重要信号:
▸ 信号一:工业制造是最成熟但最困难的赛道

▲ 报告图4-1:工业具身智能的挑战与核心技术(摘自原报告)
报告把工业具身智能的挑战总结为两句话:
柔性适配与工艺精度的动态平衡:在应对多品种、小批量生产需求时,机器人既要保证制造精度(如汽车装配精度往往需要达到丝级±0.05mm),又要灵活应对因制造品类和工艺动态变化引起的工况变化、产线重构等挑战。 |
通用技能与专门工艺的有机统一:智能制造机器人既要具备跨领域的基础操作能力,如抓取、放置、装配、拧紧、轨迹跟踪、曲面随形等,又要掌握面向特定制造工艺的专家级技能。 |
直白点说:不要期望通用具身智能产品直接满足高精度工业需求。深度的工艺know-how才是真正的壁垒。
▸ 信号二:能源电力是被低估的"慢赛道"机会
报告专门用一整节讲了电力行业的4类具体应用场景:输电线路巡检、新能源场站运维、变电站巡检操作、储能充换电。
文章提到:
"南方电网广东广州供电局自主研制的混合现实(MR)遥操作带电作业机器人"悟空"……为高风险工况下的人机协同作业提供了重要实践依据。"
电力行业的特点是:客户(国家电网、南方电网)预算充足、痛点明确(高危作业替代)、采购决策链清晰。相比消费级赛道的激烈竞争,这里的窗口期可能更长。
▸ 信号三:家庭服务赛道热度高但成熟度低
报告里家庭服务章节涉及的公司数量最多——1X、Figure、逐际、智元、千寻、自变量、星尘、美的、小鹏、特斯拉、Apptronik、丰田、斯坦福……但大部分产品仍处于"测试"或"预售"阶段。
报告原文的表述很克制:"1X Technologies的NEO机器人……该机型于2025年10月正式开启预售,计划于2026年在美国市场开始交付。"—— 也就是说,家庭服务机器人的规模化商业验证,还没有真正到来。
05 容易引起忽视、但其实极其重要的一章:安全与标准
白皮书第二章的2.10节专门讨论了具身智能安全问题。读完之后,我意识到这部分对管理者的意义远超想象。
▸ 你知道机器人可以被"语音攻击"吗?
报告列出了4种针对具身智能的语音攻击方式:
● 隐藏语音指令攻击:对抗性语音,人类听起来像噪音,机器人却能识别执行。
● 超声波攻击:利用人耳听不到的超声波频段传递指令。
● 心理声学攻击:利用听觉掩蔽效应,让扰动声音低于人类感知阈值。
● 对抗样本攻击:对任意音频施加微小扰动,诱导机器人执行攻击者指令。
如果你的产品准备进入家庭、零售、医疗等开放场景,这些攻击方式都是现实威胁,不是理论概念。
▸ 标准化:隐藏的政策风险与先发机会
报告在第五章明确指出:"全球具身智能标准化整体处于起步探索阶段,尚未形成体系化布局。"
这句话里有两层意思:
其一,现阶段是标准真空期,谁先跑通场景,谁就能占领市场;
其二,一旦标准出台,不符合规范的产品将面临整改成本。
报告还透露了4个即将重点立标的方向:基础定义(术语/测评)、智能化(端到端模型/集群协同)、接口适配(数据格式/算法硬件接口)、安全治理(机械/功能/数据/算法/伦理)。
企业也可以采取相应行动:现在就要开始参与行业标准制定。这不仅是政策风险管理,更是把自身技术优势转化为标准优势的重要窗口。
06 写在最后:5条管理者行动清单
把100页白皮书的信息浓缩一下,可以总结出给具身智能行业的管理者5条可操作建议:
① 立即评估技术路线的WAM适配性
不是让你推倒重来,而是让产品架构保留向WAM迁移的可能性。纯VLA锁死的团队,在2026-2027年将面临更大的技术代际压力。
② 把数据采集能力作为核心业务建设
UMI、背包式采集、合成数据这些工具已经把门槛降下来了。问题不再是"能不能采",而是"有没有把采集纳入产品闭环"。考虑一下,你的产品上线后,是否能自动产生越来越多的训练数据?
③ 在确定性强的赛道找切入点
如果你在寻找第一个商业化场景,优先考虑:结构化程度高、重复性强、安全风险大、客户采购决策明确的场景。能源电力、物流仓储、特定工业工序是报告里提到的高确定性方向。
④ 建立独立的安全测试与伦理合规能力
特别是要进入人机共存场景的产品。对抗性测试、供应商安全责任边界、人机交互的独立监控层——这些现在看起来"提前",未来会成为基本功。
⑤ 积极参与行业标准制定
标准化工作看起来"虚",但它决定了未来3-5年的市场准入规则。现在的投入产出比是最高的。
最后总结一句:具身智能正处于从技术探索期进入产业化加速期的窗口。白皮书里反复强调一个判断——"具身智能必将加速发展,为社会的创新与转型提供源源不断的动力。"对行业管理者而言,最危险的两种状态是:过早押注和等待观望。正确的姿态是,以场景为锚点、以数据为核心资产、以开放架构应对范式切换,在不确定性中保持战略灵活性。 |
注:报告原文可自行网络检索或添加作者微信获取⬇️
律师简介:
北京盈科(上海)律师事务所 合伙人
盈科全球数字经济法律服务中心上海中心 副主任
华东政法大学法律硕士
《生成式人工智能数据应用合规指南》起草人
上海市人工智能学会会员
执业领域:企业法律顾问、争议解决、AI法律合规、数据合规
拥有工科与法律的复合背景。专注于AI等高科技行业企业法律服务,主要服务内容为公司法律合规及争议解决,参与多家公司股权投资尽调、股权架构设计,建立并完善了公司的合规制度,帮公司进行业务合同起草、审核并协助进行谈判,处理过百余件企业的知识产权、股权、劳动等各项纠纷。
超级个体OPC定制包(¥399扫码咨询):
常规法律服务产品:
产品线 | 产品名称 | 核心内容 | 产品形式 |
核心基础合规 | AI数据合规全流程审查与构建 | 数据资产来源合法性审查(爬虫合规、授权协议)、训练数据标注合规、个人信息保护影响评估(PIA)、数据跨境传输方案设计、数据安全事件应急预案。 | 合规清单审查、数据合规体系建设法律意见书、专项合规。 |
AI产品上市前合规“体检” | 模拟监管问询,对AI产品(特别是深度合成、生成式AI服务)进行全链路合规检查,包括用户协议、隐私政策、内容安全管理制度、备案要求等。 | 标准化“体检”清单 + 定制化体检报告 | |
知识产权与资产化 | AI知识产权战略布局与权利归属设计 | 厘清AI生成内容的著作权归属与保护策略;软件著作权、算法专利(方法专利)的申请策略;技术秘密保护体系的建立;员工与合作方知识产权协议设计。 | 知识产权保护方案、专利申请辅助、协议模板库 |
AI知识产权尽职调查与价值评估 | 为融资、并购交易提供AI相关的知识产权尽职调查;协助评估数据资产、算法模型的知识产权价值。 | 尽职调查报告、资产价值评估法律意见书 | |
商业交易与合作 | AI专项合同模板库与审核服务 | 开发适用于AI行业的标准化合同模板,如:数据采购协议、算法技术服务协议、API接口调用协议、模型训练合作合同、AI软件销售/SaaS服务协议等。并提供关键合同的定制化审核服务。 | 提供合同模板与关键合同审核服务 |
To B/To G项目投标与合同谈判支持 | 针对大型企业或政府客户的AI项目,协助审核招标文件中的法律风险点,参与合同谈判,重点把控责任限制、知识产权许可、数据权属、验收标准等核心条款。 | 项目专项法律支持服务 | |
投融资与资本市场 | AI公司初创期“法律启动包” | 公司设立(股权结构设计,充分考虑技术出资问题)、创始人协议、早期知识产权归属约定、第一版用户协议和隐私政策。 | 协议起草 |
AI专项融资法律支持 | 在融资过程中,重点处理由于AI公司特性带来的特殊问题,如:技术估值、数据资产的价值体现、核心算法的尽职调查、特殊的投资人权利(如对算法性能的里程碑对赌)。 | 协议起草、专项会议 | |
争议解决与风险应对 | AI产品责任与侵权纠纷应对 | 代理因AI决策错误、内容生成侵权(诽谤、版权侵权)、算法歧视等导致的诉讼案件。 | 争议解决代理服务 |
AI商业秘密与不正当竞争纠纷 | 处理核心算法员工跳槽引发的商业秘密纠纷、AI领域的“搭便车”等不正当竞争案件。 | 诉讼/仲裁代理 | |
增值服务 | 企业内部AI合规培训 | 为客户的研发、产品、市场团队提供定制化的法律合规培训,提升全公司的合规意识。 | 线下/线上培训课程 |
免责声明:本文仅供参考,不构成法律建议。读者在实际操作中请根据具体情况寻求专业法律意见。


