从数字智能到物理世界 | 2026-05-17
执行摘要
Physical AI 是人工智能与机器人系统的融合,使机器能够感知、推理并作用于物理世界。全球市场规模预计从 2026 年的$3,830亿增长至 2040 年的$3.26万亿,复合年增长率约 32%,是史上最大的科技市场扩张之一。技术范式正从 VLA(视觉-语言-动作)模型向 WAM(世界动作模型)转变,NVIDIA DreamZero 和 Google Gemini Robotics 处于前沿。数据策略从昂贵的遥操作转向环境感知人类数据收集。竞争格局尚未固化,美国、中国、欧洲、日本各具优势。
一、Physical AI 概述
1.1 什么是 Physical AI
Physical AI 指具身于机器人中、能够与物理世界交互的 AI 系统。与传统数字 AI(处理文本、图像、代码)不同,Physical AI 必须应对真实物体的连续、嘈杂且不可饶恕的物理特性。美国银行研究所将其描述为"AI 商业化的下一个主要阶段,将智能从软件延伸到能够观察、决策和行动的真实世界机器"。
1.2 核心技术栈(五大问题)
①感知— 从噪声传感器理解世界
②预测— 建模行动后世界的演变
③规划— 选择满足约束的动作序列
④控制— 在真实硬件上可靠执行
⑤验证与安全— 确保行为有界、可审计、可恢复
1.3 范式转变:从规则到数据
传统机器人依赖基于规则的系统(显式编程+经典控制)。Physical AI 强调通过机器学习与强化学习赋予机器人适应性和自主性——使其能感知环境、从经验中学习、实时决策,而非仅执行预设指令。
二、市场格局
2.1 市场规模与增长
• 2026年市场规模:$3,830亿(ResearchAndMarkets)
• 2040年市场规模:$3.26万亿
• 整体 CAGR(2026-2035):32.8%
• 工业机器人 CAGR(2026-2032):56.7%
• L3 自动驾驶 CAGR(2026-2032):60.8%
2.2 区域分布(2025)
北美:40.6%
亚太:30.6%(增长最快,CAGR 34.6%)
欧洲:23.5%
2.3 投资趋势
2026 年 Q1 创下风投纪录:
• 全球 VC 总额:$3,000亿
• AI 投资:$2,420亿(占 VC 总额 80%)
• Physical AI & 机器人:占 AI 交易量的11%
• 2025 Q4 机器人投资环比增长300%
• 高盛预测:2030 年人形机器人累计投资$500亿
重大融资案例:OpenAI $1,220亿 | Anthropic $300亿 | xAI $200亿 | Waymo $160亿 | Physical Intelligence $6亿B轮 | Figure AI 估值 $390亿
三、技术架构:VLA vs WAM
3.1 两种范式对比
VLA(视觉-语言-动作)将机器人控制建模为多模态序列任务,处理当前观察和语言指令生成动作。继承 VLMs 的语义基础,但本质上是反应式的——未来的物理演变未被显式表示。
WAM(世界动作模型)从被动映射转向联合预测未来世界状态和动作。通过视频作为世界演变的密集表征学习物理动态。如果世界模型能在视频像素中"梦见"正确的未来,机器人就能在电机中很好地执行。
3.2 性能对比(RoboTwin 2.0-Plus 基准)
WAM(LingBot-VA):成功率74.2%
VLA(π0.5):成功率58.6%
混合模型(VLA-JEPA):介于两者之间
注:VLA 可通过大规模多样化数据弥补——π0.5 在 LIBERO-Plus 上达到 85.7%
3.3 关键权衡
•鲁棒性:WAM 对视觉噪声更鲁棒(视频预训练优势)
•推理速度:VLA ~60ms vs WAM 190ms+(DreamZero)
•数据效率:WAM 从视频学习动态,VLA 需更多机器人数据
•泛化能力:WAM 对新环境零样本泛化更好
3.4 DreamZero 架构(NVIDIA)
14B 参数世界动作模型,基于预训练视频扩散骨干网络:
• 联合预测未来帧和动作,以语言指令为条件
• 学习逆向动态——对齐电机命令与预测的视觉未来
• 泛化能力2倍以上于最先进的 VLA
• 支持开放词汇提示(新动词、名词、环境)
3.5 数据策略演进
传统遥操作:VR头显+复杂背带("中世纪酷刑装置"),每天仅3-24小时有效数据,昂贵且缓慢。
新兴方案 EgoScale:
• 预训练 20,854+ 小时自我中心人类视频
• 仅需~4小时(0.1%)机器人遥操作数据微调
• 发现对数线性缩放定律:R²=0.9983数据规模与验证损失相关性
• 支持单次任务适应,机器人监督最少
3.6 全身控制架构(三层系统)
S2 推理层(7-9 Hz):场景理解、目标排序
S1 视觉运动策略(200 Hz):感知→关节命令
S0 全身控制器(1 kHz):平衡、接触、协调
Figure AI Helix 02 的 S0 层使用单一神经先验替代了 109,504 行手写 C++ 控制代码
四、关键玩家与生态系统
4.1 基础模型开发者
NVIDIA— GR00T N1 全球首个开源人形机器人基础模型;GR00T N2 基于 DreamZero;Cosmos 世界基础模型;DreamDojo 开源神经模拟器(44,711小时人类视频训练)
Google DeepMind— Gemini Robotics VLA 模型;Gemini Robotics-ER 扩展推理版;与 Boston Dynamics 合作整合 Gemini 到 Atlas 人形机器人
Physical Intelligence— π0 首个通用机器人基础模型;π0.5/π0.6/π0.7 持续迭代+RL微调;$6亿B轮(总融资$10亿+)
Figure AI— Helix 专有 VLA 系统(替代 OpenAI 合作);Helix 02 三层架构 S0/S1/S2;Figure 03 第三代触觉人形机器人($20,000 目标价);估值 $390亿
4.2 人形机器人制造商
•Tesla Optimus Gen 3— $25-30K(目标),2026年夏季量产,22 DoF灵巧手
•1X NEO— $20,000 / $499/月,2026年交付,5天售罄10,000台,66磅/4小时续航
•Agility Digit— 已商业部署,移动10万+周转箱(GXO/Spanx)
•Unitree G1— $13,500起,23-43 DoF,中国市场
•Boston Dynamics Atlas(电动) — 56 DoF,110磅负载,与Google DeepMind合作
•Figure 03— ~$20,000(目标),2026年末,触觉传感器,24+ DoF灵巧手
4.3 关键里程碑
• Figure AI 完成8小时自主轮班演示(2026.05.14)
• Agility Digit 移动10万+周转箱(2025.11)
• 1X NEO5天预售1万台,2026年4月量产
• NVIDIA 发布GR00T N1开源人形机器人模型(2026.03)
• ABB Robotics Q1 2026 订单$113亿(+24% YoY)
五、应用场景
5.1 制造与工业
• BMW 与 Figure AI 合作测试人形机器人汽车制造
• Audi/BMW 2026 年试点人形机器人运营部署
• Tesla Optimus 在 Tesla 工厂进行电池分拣与质检
• ABB Robotics 创纪录订单 $113亿(+24%)
5.2 物流与仓储
• Agility Digit 首个商业部署人形机器人(GXO/Spanx/Mercado Libre)
• Amazon 100万+机器人运营中,试点人形机器人项目
• 1X NEO 工厂中机器人互相组装
5.3 医疗
• GE HealthCare 自主 X 光和超声系统(机器人手臂)
• Medtronic 与 NVIDIA 平台集成手术机器人
• AI 驱动康复外骨骼
5.4 家庭与消费者
• 1X NEO $20K 家用机器人:整理、洗碗、洗衣辅助
• Figure 03 面向家庭:软织物包裹、无线充电
• 安全创新:轻量化(66磅)、可变形机身、静音(22dB)
5.5 自动驾驶
• Waymo:710万英里,比人类基准少17起伤害事故
• Tesla FSD:利用自动驾驶数据和基础设施反哺机器人
• 建筑施工:AI 安全监控减少 35-50% 事故率
六、挑战与限制
6.1 技术挑战
可靠性鸿沟:从80%到99.9%的任务成功率需要根本不同的方法
Sim-to-Real 迁移:仿真控制器在真实摩擦、传感器噪声、光照下可能失效
实时推理延迟:WAM DreamZero 需190ms+/动作,VLA仅60ms
Moravec 悖论:人类轻松的精细操作对机器极难
6.2 基础设施挑战
"演示在干净的 WiFi 上运行,工程师随时待命。生产环境有混凝土墙、焊接设备的 RF 干扰、防火墙限制。"所需基础设施:eSIM 蜂窝故障转移、边缘计算本地推理、安全关键控制回路的确定性数据路径。
6.3 经济壁垒
• 可扩展制造需要大量耐心资本
• 机器人供应链仍处于"工业婴儿期"
• 商品化组件利润微薄,抑制初创竞争
• 缺乏行业标准化,各公司路径独立
6.4 安全与问责
数字 AI 出错:直接给出正确答案。Physical AI 出错:
• 根本原因可能不可观察(触觉感知缺失、遮挡)
• 无后备方案:无法"上网搜索"解决新物理情况
• 机器人问责法律框架尚未建立
七、未来展望
7.1 时间线预测(NVIDIA Jim Fan 框架)
物理图灵测试:2-3年
物理 API(黑灯工厂):~2030年
物理自动研究(自我改进机器人):2040年(概率95%)
14年周期:AlexNet(2012) → Agents(2026) → Physical AI(2040)
7.2 技术演进方向
•模型架构:WAM 将逐步替代 VLA 用于物理推理;三层控制(S0/S1/S2)成为人形系统标准
•数据收集:从遥操作转向环境/感知人类数据;人类视频预训练+最少机器人微调(0.1%比例)
•训练基础设施:仿真优先+神经模拟器(DreamDojo);合成数据规模化(11小时生成78万轨迹)
•计算为王:"买得越多,省得越多"——NVIDIA 逻辑
7.3 三波采用框架
第一波(当前):工业自动化——仓库、制造业
第二波(2027-2030):商业服务——零售、酒店、医疗
第三波(2030+):消费者家庭采用——待成本降低和可靠性突破
7.4 新兴机遇
• 可观测性平台:部署机器人的专用监控、调试、优化
• 数字孪生:Real-to-Sim-to-Real 无限合成训练环境
• 车队管理:多机器人协调与学习
• 安全标准:Physical AI 新合规框架
• 专用传感器:触觉感知、力反馈、嵌入式计算
八、结论与建议
8.1 核心发现
① Physical AI 是下一个平台级转变——智能从屏幕走向物理执行器
② 市场加速:$3,830亿(2026)→ $3.26万亿(2040),CAGR 32%+
③ 技术范式转移:VLA → WAM 实现更好的物理泛化
④ 数据是新石油:EgoScale(2万+小时人类视频+0.1%机器人数据)证明缩放定律
⑤ 首批商业部署已产生收入:Agility Digit(2024起)、Figure AI 8小时自主轮班
⑥ 可靠性鸿沟待解:80% → 99.9% 需要基础性突破
⑦ 竞争格局开放:美国、中国、欧洲、日本各具独特优势
8.2 战略建议
企业:试点当前商业方案(Digit、NEO);聚焦结构化环境(仓库)先于非结构化(家庭);从第一天起投资可观测性基础设施。
开发者:WAM vs VLA 根据泛化需求选择;开源选项(DreamDojo、GR00T、LeRobot)降低入门门槛;先聚焦特定垂直领域。
投资者:硬件-软件整合能力是核心护城河;数据管道基础设施价值递增;安全与合规随监管发展日益重要。
8.3 待解问题
• WAM 还是 VLA 将在不同场景占据主导?
• 非结构化环境可靠性能否达到 99.9%?
• 责任与问责框架将如何发展?
• $20K 消费者价位能否实现大规模采用?
• 中国监管路径 vs 西方路径?
关键数据速查
市场数据
• Physical AI 市场 2026:$3,830亿| 2040:$3.26万亿
• 整体 CAGR 2026-2035:32.8%| 2026-2032:47.2%
• 北美份额:40.6%| 亚太增长最快:34.6% CAGR
技术性能
• WAM vs VLA 成功率:74.2% vs 58.6%(RoboTwin)
• EgoScale 缩放定律 R²:0.9983
• DreamZero 泛化提升:>2xvs VLA | 参数:14B
• DreamDojo 物理正确率:73.50%| 真实世界提升:+17%
投资数据
• Q1 2026 AI 融资:$2,420亿| 占 VC 总额:80%
• Physical AI 交易占比:11%| 2025 Q4 机器人投资增长:+300%
• 高盛人形机器人预测:$500亿累计投资至2030年
参考来源
1. Bank of America Institute — Physical AI: The Basics (Feb 2026)
2. NVIDIA — Isaac GR00T N1: Open Foundation Model for Humanoid Robots (Mar 2026)
3. Jim Fan et al. — DreamZero: World Action Models are Zero-shot Policies (arXiv:2602.06949, 2026)
4. Gao et al. — DreamDojo: Generalist Robot World Model from Human Videos (arXiv:2602.06949, 2026)
5. "Do World Action Models Generalize Better than VLAs?" (arXiv:2603.22078, 2026)
6. NVIDIA Research — EgoScale: Scaling Dexterous Manipulation (2026)
7. ResearchAndMarkets — Global Physical AI Market 2026-2040 (Apr 2026)
8. Crunchbase — Q1 2026 Shatters Venture Funding Records (2026)
9. CB Insights — State of AI Q1'26 Report (2026)
10. Goldman Sachs — Humanoid Robotics Investment Projections (2026)


