具身智能2026：从“纸上谈兵”到“真枪实弹”

2026年4月，中国人工智能学会发布《中国人工智能系列白皮书——具身智能（2026版）》，这是国内具身智能领域最具分量的系统性报告。与此同时，工信部、国务院国资委联合启动2026年度人形机器人与具身智能实景实训专项行动，明确到2026年底人形机器人要在代表性场景中开启“作业模式”，形成万台级规模落地能力。

当大模型还在云端“纸上谈兵”，具身智能已经让AI长出了“身体”和“双手”。从Figure 02走进真实家庭测试，到特斯拉Optimus Gen3剑指厨房精细操作，再到智元机器人仅凭一句自然语言就能在杂乱桌面零样本抓取任意物品——2026年，具身智能正从实验室冲向工厂、农田和千家万户。

这份白皮书揭示的，不仅是一场技术升级，更是一场深刻的范式革命。

一、VLA走到尽头，WAM登上舞台

过去两年，具身智能领域最火热的技术路线是VLA（视觉-语言-动作模型）。这类模型让机器人能够“看懂”指令并生成动作，本质上是一种高级的模仿学习。谷歌的RT系列、Physical Intelligence的π0、字节跳动的GR-2，都是这条路线上的代表成果。

但白皮书明确指出，VLA模型正遭遇动态适应与长程规划的结构性瓶颈。传统VLA让机器人干活，更像是一场“刻板的开卷考试”——极度依赖人类演示的模仿学习，只是在死记硬背动作轨迹，底层根本不理解物理世界的因果关系。只要光照稍微变一下、桌上的杯子挪个几厘米，机器人就会瞬间“卡壳”。

2026年初，具身智能的算法架构正经历从VLA向世界-动作模型（WAM）的范式跃迁。与传统VLA不同，WAM以视频模型为骨干，对“动作-下一状态”的联合分布进行建模，让机器人在执行动作前就能“想象”结果。世界模型的核心价值在于：它让机器人从“模仿人类指令”升级为“理解物理因果”。

这条路线同样被资本押注。无界动力发布全球首个“长时序双向物理因果链”隐空间世界模型MWA™，在斯坦福等机构联合发起的RoboCasa GR1 TableTop榜单中以75.2%的平均任务成功率拿下全球第一，超过英伟达GR00T-N1.6等主流模型。公司已完成超2亿美元天使轮融资，Pre-A轮近2亿美元融资也已接近尾声。

不过，行业内并非将VLA和WAM视为对立。“VLA+WAM”双技术路线正在成为共识——VLA保障实时操作，WAM提供前瞻推演，两者协同实现从“感知-决策-执行”到“预判-优化-闭环”的完整智能跃升。

二、数据不再是“卡脖子”环节

大模型靠的是海量文本数据，但具身智能需要的是人与物理世界交互的数据——这种数据的获取成本远高于文本。白皮书揭示了数据范式的五大结构性变革：

第一，自我中心感知成为主流。 相较于第三人称固定机位，第一人称视频天然携带以任务为中心的空间参考系，消除了视角歧义。预计2026年，Ego数据将占据具身训练数据的60%以上。

第二，通用操作接口打破本体壁垒。 通过手持式轻量化夹爪，同一组人类演示数据可跨机械臂、夹爪复用。国内企业已将单次采集成本压至0.6元以下，较传统遥操作降低一个数量级。

第三，人类视频迁移学习突破数据来源瓶颈。 互联网规模的第一视角人类视频将成为具身预训练基础语料，大幅降低对昂贵机器人数据采集的依赖。

第四，数据飞轮实现“数据自举”。 从“单条人类演示启动→残差强化学习微调→策略部署→数据增强”的闭环已经跑通。

第五，大规模合成数据预训练验证Sim2Real新可能。 上海人工智能实验室与北京大学联合发布的InternData-A1数据集证明：仅使用合成数据即可在VLA模型预训练中媲美真实数据集的最佳性能。该数据集包含超63万条轨迹、7433小时数据，在5项真实世界任务中展现出惊人的零样本迁移能力。

当数据获取从“重资产投入”变为“轻工具调用”，行业准入门槛将被彻底颠覆。

三、从展台跳舞到车间上岗

白皮书显示，具身智能正从单点技术验证走向全流程自主作业，在五大领域形成明确落地路径。

工业制造是最先爆发的场景。 Figure 03已进入宝马工厂；智元“精灵G2”在龙旗科技南昌工厂连续并线作业6天，累计产量14925件，作业成功率99.987%。优艾智合发布全球首个可规模化应用的工业具身智能大模型“智合”及工业原生人形机器人“隙锋”，目标3年内赋能10000个工业现场。领益智造北京具身智能超级工厂在亦庄正式投产，2026年实现1万台套产能。

家庭服务正从科幻走进现实。 Figure 02已启动真实家庭测试，搭载Helix 02系统的机器人能在普通家庭厨房里自主完成洗碗机取盘并放入橱柜的整套流程。1X Technologies的NEO机器人于2025年10月开启预售。智元机器人推出基于百万真机数据训练的GO-1具身大模型，实现叠衣服、倒水等长序列复杂任务。

但现实与理想之间仍有巨大鸿沟。斯坦福《2026 AI指数报告》显示，人形机器人在真实家庭环境中完成1000项家务任务成功率仅12.4%，而模拟环境则高达89.4%——这77个百分点的差距，就是科幻与现实之间的距离。

农业、交通、能源电力等领域同样在加速落地——从农机自动驾驶到输电线路智能巡检，从无人仓储到变电站自主操作，具身智能正在渗透国民经济各个角落。

四、政策东风与资本浪潮

2026年，具身智能的政策支持力度空前。“十五五”规划首次将具身智能纳入国家未来产业中长期重点布局。工信部、国资委联合启动实景实训专项行动，部署打造实景实训空间、组建创新应用联合体、攻关实用化作业技能等6项重点任务。

资本同样在用真金白银投票。截至2026年5月，国内具身智能领域投资超577亿元，已超过2025年全年。单笔10亿元及以上融资超过10起。但一个关键的结构性变化是：超过70%的融资额流向B轮及以后企业，腰部以下企业的融资周期显著拉长。

市场空间同样令人振奋。RBC Capital Markets预测全球人形机器人市场到2050年可达9万亿美元，其中中国市场占60%以上。高盛预计市场将从2025年约8000台出货量，到2030年增加至13.6万台。

五、挑战与未来

白皮书也坦诚指出了行业面临的挑战。

最核心的瓶颈是真实世界数据稀缺。 当前国内具身数据约百万小时，远低于大语言模型。训练机器人完成某个垂直行业80%的人类工作，至少需要1亿条数据。数据多样性、流通性不足导致智能尚未涌现。

仿真到现实的鸿沟依然显著。 模拟环境与真实世界之间那77个百分点的成功率差距，是整个行业必须翻越的大山。

行业正在经历残酷的洗牌。 交付力正在取代技术力成为估值的第一标尺——产品能否在真实场景稳定运行3个月，已成为投资的硬指标。工信部赛迪研究院的表态代表了政策层的期待：“我们不要表演机器人，我们要干活的生产力。”

展望未来，白皮书指出三个确定性趋势：从VLA到WAM的范式跃迁、数据范式的结构性变革、以及从实验室走向真实场景的规模化落地。2026年被视为具身智能从概念验证迈向规模化落地的“拐点之年”。随着行业标准逐步建立、整机成本持续下降以及模型不断迭代，人形机器人正从“工具型设备”向“情感型伙伴”迭代升级。

具身智能正处于从实验室研究向产业化应用过渡的关键阶段。机遇和挑战并存，但方向已经清晰——AI正在长出身体，走进真实世界。未来十年，具身智能将成为重塑人类生产生活方式的重要技术力量。

关注公众号+后台留言可发送PDF原版文件

打赏