Physical AI 深度研究报告_展会资讯_资讯

Physical AI 深度研究报告

从数字智能到物理世界 | 2026-05-17

执行摘要

Physical AI 是人工智能与机器人系统的融合，使机器能够感知、推理并作用于物理世界。全球市场规模预计从 2026 年的$3,830亿增长至 2040 年的$3.26万亿，复合年增长率约 32%，是史上最大的科技市场扩张之一。技术范式正从 VLA（视觉-语言-动作）模型向 WAM（世界动作模型）转变，NVIDIA DreamZero 和 Google Gemini Robotics 处于前沿。数据策略从昂贵的遥操作转向环境感知人类数据收集。竞争格局尚未固化，美国、中国、欧洲、日本各具优势。

一、Physical AI 概述

1.1 什么是 Physical AI

Physical AI 指具身于机器人中、能够与物理世界交互的 AI 系统。与传统数字 AI（处理文本、图像、代码）不同，Physical AI 必须应对真实物体的连续、嘈杂且不可饶恕的物理特性。美国银行研究所将其描述为"AI 商业化的下一个主要阶段，将智能从软件延伸到能够观察、决策和行动的真实世界机器"。

1.2 核心技术栈（五大问题）

①感知— 从噪声传感器理解世界

②预测— 建模行动后世界的演变

③规划— 选择满足约束的动作序列

④控制— 在真实硬件上可靠执行

⑤验证与安全— 确保行为有界、可审计、可恢复

1.3 范式转变：从规则到数据

传统机器人依赖基于规则的系统（显式编程+经典控制）。Physical AI 强调通过机器学习与强化学习赋予机器人适应性和自主性——使其能感知环境、从经验中学习、实时决策，而非仅执行预设指令。

二、市场格局

2.1 市场规模与增长

• 2026年市场规模：$3,830亿（ResearchAndMarkets）

• 2040年市场规模：$3.26万亿

• 整体 CAGR（2026-2035）：32.8%

• 工业机器人 CAGR（2026-2032）：56.7%

• L3 自动驾驶 CAGR（2026-2032）：60.8%

2.2 区域分布（2025）

北美：40.6%

亚太：30.6%（增长最快，CAGR 34.6%）

欧洲：23.5%

2.3 投资趋势

2026 年 Q1 创下风投纪录：

• 全球 VC 总额：$3,000亿

• AI 投资：$2,420亿（占 VC 总额 80%）

• Physical AI & 机器人：占 AI 交易量的11%

• 2025 Q4 机器人投资环比增长300%

• 高盛预测：2030 年人形机器人累计投资$500亿

三、技术架构：VLA vs WAM

3.1 两种范式对比

VLA（视觉-语言-动作）将机器人控制建模为多模态序列任务，处理当前观察和语言指令生成动作。继承 VLMs 的语义基础，但本质上是反应式的——未来的物理演变未被显式表示。

WAM（世界动作模型）从被动映射转向联合预测未来世界状态和动作。通过视频作为世界演变的密集表征学习物理动态。如果世界模型能在视频像素中"梦见"正确的未来，机器人就能在电机中很好地执行。

3.2 性能对比（RoboTwin 2.0-Plus 基准）

WAM（LingBot-VA）：成功率74.2%

VLA（π0.5）：成功率58.6%

混合模型（VLA-JEPA）：介于两者之间

注：VLA 可通过大规模多样化数据弥补——π0.5 在 LIBERO-Plus 上达到 85.7%

3.3 关键权衡

•鲁棒性：WAM 对视觉噪声更鲁棒（视频预训练优势）

•推理速度：VLA ~60ms vs WAM 190ms+（DreamZero）

•数据效率：WAM 从视频学习动态，VLA 需更多机器人数据

•泛化能力：WAM 对新环境零样本泛化更好

3.4 DreamZero 架构（NVIDIA）

14B 参数世界动作模型，基于预训练视频扩散骨干网络：

• 联合预测未来帧和动作，以语言指令为条件

• 学习逆向动态——对齐电机命令与预测的视觉未来

• 泛化能力2倍以上于最先进的 VLA

• 支持开放词汇提示（新动词、名词、环境）

3.5 数据策略演进

传统遥操作：VR头显+复杂背带（"中世纪酷刑装置"），每天仅3-24小时有效数据，昂贵且缓慢。

新兴方案 EgoScale：

• 预训练 20,854+ 小时自我中心人类视频

• 仅需~4小时（0.1%）机器人遥操作数据微调

• 发现对数线性缩放定律：R²=0.9983数据规模与验证损失相关性

• 支持单次任务适应，机器人监督最少

3.6 全身控制架构（三层系统）

S2 推理层（7-9 Hz）：场景理解、目标排序

S1 视觉运动策略（200 Hz）：感知→关节命令

S0 全身控制器（1 kHz）：平衡、接触、协调

Figure AI Helix 02 的 S0 层使用单一神经先验替代了 109,504 行手写 C++ 控制代码

四、关键玩家与生态系统

4.1 基础模型开发者

NVIDIA— GR00T N1 全球首个开源人形机器人基础模型；GR00T N2 基于 DreamZero；Cosmos 世界基础模型；DreamDojo 开源神经模拟器（44,711小时人类视频训练）

Google DeepMind— Gemini Robotics VLA 模型；Gemini Robotics-ER 扩展推理版；与 Boston Dynamics 合作整合 Gemini 到 Atlas 人形机器人

Physical Intelligence— π0 首个通用机器人基础模型；π0.5/π0.6/π0.7 持续迭代+RL微调；$6亿B轮（总融资$10亿+）

Figure AI— Helix 专有 VLA 系统（替代 OpenAI 合作）；Helix 02 三层架构 S0/S1/S2；Figure 03 第三代触觉人形机器人（$20,000 目标价）；估值 $390亿

4.2 人形机器人制造商

•Tesla Optimus Gen 3— $25-30K（目标），2026年夏季量产，22 DoF灵巧手

•1X NEO— $20,000 / $499/月，2026年交付，5天售罄10,000台，66磅/4小时续航

•Agility Digit— 已商业部署，移动10万+周转箱（GXO/Spanx）

•Unitree G1— $13,500起，23-43 DoF，中国市场

•Boston Dynamics Atlas（电动） — 56 DoF，110磅负载，与Google DeepMind合作

•Figure 03— ~$20,000（目标），2026年末，触觉传感器，24+ DoF灵巧手

4.3 关键里程碑

• Figure AI 完成8小时自主轮班演示（2026.05.14）

• Agility Digit 移动10万+周转箱（2025.11）

• 1X NEO5天预售1万台，2026年4月量产

• NVIDIA 发布GR00T N1开源人形机器人模型（2026.03）

• ABB Robotics Q1 2026 订单$113亿（+24% YoY）

五、应用场景

5.1 制造与工业

• BMW 与 Figure AI 合作测试人形机器人汽车制造

• Audi/BMW 2026 年试点人形机器人运营部署

• Tesla Optimus 在 Tesla 工厂进行电池分拣与质检

• ABB Robotics 创纪录订单 $113亿（+24%）

5.2 物流与仓储

• Agility Digit 首个商业部署人形机器人（GXO/Spanx/Mercado Libre）

• Amazon 100万+机器人运营中，试点人形机器人项目

• 1X NEO 工厂中机器人互相组装

5.3 医疗

• GE HealthCare 自主 X 光和超声系统（机器人手臂）

• Medtronic 与 NVIDIA 平台集成手术机器人

• AI 驱动康复外骨骼

5.4 家庭与消费者

• 1X NEO $20K 家用机器人：整理、洗碗、洗衣辅助

• Figure 03 面向家庭：软织物包裹、无线充电

• 安全创新：轻量化（66磅）、可变形机身、静音（22dB）

5.5 自动驾驶

• Waymo：710万英里，比人类基准少17起伤害事故

• Tesla FSD：利用自动驾驶数据和基础设施反哺机器人

• 建筑施工：AI 安全监控减少 35-50% 事故率

六、挑战与限制

6.1 技术挑战

可靠性鸿沟：从80%到99.9%的任务成功率需要根本不同的方法

Sim-to-Real 迁移：仿真控制器在真实摩擦、传感器噪声、光照下可能失效

实时推理延迟：WAM DreamZero 需190ms+/动作，VLA仅60ms

Moravec 悖论：人类轻松的精细操作对机器极难

6.2 基础设施挑战

"演示在干净的 WiFi 上运行，工程师随时待命。生产环境有混凝土墙、焊接设备的 RF 干扰、防火墙限制。"所需基础设施：eSIM 蜂窝故障转移、边缘计算本地推理、安全关键控制回路的确定性数据路径。

6.3 经济壁垒

• 可扩展制造需要大量耐心资本

• 机器人供应链仍处于"工业婴儿期"

• 商品化组件利润微薄，抑制初创竞争

• 缺乏行业标准化，各公司路径独立

6.4 安全与问责

数字 AI 出错：直接给出正确答案。Physical AI 出错：

• 根本原因可能不可观察（触觉感知缺失、遮挡）

• 无后备方案：无法"上网搜索"解决新物理情况

• 机器人问责法律框架尚未建立

七、未来展望

7.1 时间线预测（NVIDIA Jim Fan 框架）

物理图灵测试：2-3年

物理 API（黑灯工厂）：~2030年

物理自动研究（自我改进机器人）：2040年（概率95%）

14年周期：AlexNet(2012) → Agents(2026) → Physical AI(2040)

7.2 技术演进方向

•模型架构：WAM 将逐步替代 VLA 用于物理推理；三层控制（S0/S1/S2）成为人形系统标准

•数据收集：从遥操作转向环境/感知人类数据；人类视频预训练+最少机器人微调（0.1%比例）

•训练基础设施：仿真优先+神经模拟器（DreamDojo）；合成数据规模化（11小时生成78万轨迹）

•计算为王："买得越多，省得越多"——NVIDIA 逻辑

7.3 三波采用框架

第一波（当前）：工业自动化——仓库、制造业

第二波（2027-2030）：商业服务——零售、酒店、医疗

第三波（2030+）：消费者家庭采用——待成本降低和可靠性突破

7.4 新兴机遇

• 可观测性平台：部署机器人的专用监控、调试、优化

• 数字孪生：Real-to-Sim-to-Real 无限合成训练环境

• 车队管理：多机器人协调与学习

• 安全标准：Physical AI 新合规框架

• 专用传感器：触觉感知、力反馈、嵌入式计算

八、结论与建议

8.1 核心发现

① Physical AI 是下一个平台级转变——智能从屏幕走向物理执行器

② 市场加速：$3,830亿（2026）→ $3.26万亿（2040），CAGR 32%+

③ 技术范式转移：VLA → WAM 实现更好的物理泛化

④ 数据是新石油：EgoScale（2万+小时人类视频+0.1%机器人数据）证明缩放定律

⑤ 首批商业部署已产生收入：Agility Digit（2024起）、Figure AI 8小时自主轮班

⑥ 可靠性鸿沟待解：80% → 99.9% 需要基础性突破

⑦ 竞争格局开放：美国、中国、欧洲、日本各具独特优势

8.2 战略建议

企业：试点当前商业方案（Digit、NEO）；聚焦结构化环境（仓库）先于非结构化（家庭）；从第一天起投资可观测性基础设施。

开发者：WAM vs VLA 根据泛化需求选择；开源选项（DreamDojo、GR00T、LeRobot）降低入门门槛；先聚焦特定垂直领域。

投资者：硬件-软件整合能力是核心护城河；数据管道基础设施价值递增；安全与合规随监管发展日益重要。

8.3 待解问题

• WAM 还是 VLA 将在不同场景占据主导？

• 非结构化环境可靠性能否达到 99.9%？

• 责任与问责框架将如何发展？

• $20K 消费者价位能否实现大规模采用？

• 中国监管路径 vs 西方路径？

关键数据速查

市场数据

• Physical AI 市场 2026：$3,830亿| 2040：$3.26万亿

• 整体 CAGR 2026-2035：32.8%| 2026-2032：47.2%

• 北美份额：40.6%| 亚太增长最快：34.6% CAGR

技术性能

• WAM vs VLA 成功率：74.2% vs 58.6%（RoboTwin）

• EgoScale 缩放定律 R²：0.9983

• DreamZero 泛化提升：>2xvs VLA | 参数：14B

• DreamDojo 物理正确率：73.50%| 真实世界提升：+17%

投资数据

• Q1 2026 AI 融资：$2,420亿| 占 VC 总额：80%

• Physical AI 交易占比：11%| 2025 Q4 机器人投资增长：+300%

• 高盛人形机器人预测：$500亿累计投资至2030年

参考来源

1. Bank of America Institute — Physical AI: The Basics (Feb 2026)

2. NVIDIA — Isaac GR00T N1: Open Foundation Model for Humanoid Robots (Mar 2026)

3. Jim Fan et al. — DreamZero: World Action Models are Zero-shot Policies (arXiv:2602.06949, 2026)

4. Gao et al. — DreamDojo: Generalist Robot World Model from Human Videos (arXiv:2602.06949, 2026)

5. "Do World Action Models Generalize Better than VLAs?" (arXiv:2603.22078, 2026)

6. NVIDIA Research — EgoScale: Scaling Dexterous Manipulation (2026)

7. ResearchAndMarkets — Global Physical AI Market 2026-2040 (Apr 2026)

8. Crunchbase — Q1 2026 Shatters Venture Funding Records (2026)

9. CB Insights — State of AI Q1'26 Report (2026)

10. Goldman Sachs — Humanoid Robotics Investment Projections (2026)