《具身智能数据行业研究》白皮书2026_社会热点_资讯

《具身智能数据行业研究》白皮书2026

具身智能作为人工智能从“硅基思维”向“物理行动”跨越的终极形态，正站在2026年的历史拐点。以大语言模型为代表的认知智能取得巨大突破，但其能力仍主要局限于数字领域；具身智能的兴起则致力于将智能赋予物理实体，使机器能够在现实世界中实现感知、决策与行动。2025年，具身智能首次被写入中国政府工作报告，标志着其上升为国家战略层面重点培育的未来产业。然而，繁荣表象之下暗藏致命瓶颈——行业共识认为，实现具身智能的“涌现”能力至少需要百万小时来自真实世界的物理交互数据，目前积累的数量尚不足5%，这种数据稀缺性与当年大语言模型训练时互联网文本数据的丰沛形成鲜明对比。白皮书旨在为政策制定者、技术从业者及投资人提供一份理性与务实的行业指南，厘清数据瓶颈下的技术路线之争，探讨如何构建“低成本、大规模、高保真”的数据飞轮。

第1章具身智能行业的发展背景

1.1 具身智能的概念与内涵

具身智能（Embodied Intelligence）是指智能体通过物理实体与环境实时交互，实现感知、认知、决策和行动一体化的智能系统，涵盖智能机器人、自动驾驶汽车、无人机等形态。它突破了传统人工智能的“离身性”局限，推动人工智能从虚拟走向物理操作，使机器人等物理实体更深入地了解周围环境，更自然地与人类交互、更高效地执行各项任务。白皮书深度界定：具身智能并非简单的机器人升级，而是认知智能与物理载体的深度融合。这种认知与身体的深度融合，其根本驱动力在于构建现实数字化到多模态数据有效整合，这一数字化重构过程不仅是算法能力的胜利，更是为构建物理世界与虚拟模型间数据飞轮奠定的必要基础。

1.2 具身智能正发展成为全球科技焦点

具身智能已成为全球科技竞争的新焦点和大国博弈的新赛道。发达国家普遍将具身智能视为新一轮科技革命和产业革命的关键抓手。

表1 为推进具身智能发展发布的国际政策文件汇总

国家/地区政策文件
美国《人工智能战略（2023年）》、《国家机器人路线图（2024年）》、《人工智能基础设施计划》（2025年）、《AI行动计划》（2025年）
欧盟 “数字欧洲计划”，2025—2027年专项投资13亿欧元，聚焦人工智能、云和数据、网络安全、先进计算和半导体等领域
日本 “社会5.0”愿景、“AI基本计划”草案，推动具身智能在医疗、护理、农业、制造业等领域应用
韩国第四个智能机器人基本计划（2024—2028年），政府投资1.28亿美元支持机器人产业发展
中国 2025年《政府工作报告》首次将“具身智能”列入国家未来产业重点培育清单；工信部印发《人形机器人创新发展指导意见》；北京、上海、深圳、苏州等地出台具身智能规划与行动方案

中国在具身智能产业已取得显著成果。技术突破方面，我国在计算机视觉、自然语言处理等AI子领域已进入全球第一阵营，已培育多个国际先进水平的通用大模型。产业层面，中国有超过150家企业在研发具身智能机器人，市场呈现蓬勃发展态势。据国务院发展研究中心发布的《中国发展报告2025》，中国具身智能产业发展处于起步期，市场规模有望在2030年达到4000亿元、2035年突破万亿元。

1.3 具身智能的探索与挑战

当前，具身智能行业普遍面临“有脑无识”的困境——数据已成为制约通用智能诞生的核心瓶颈。更严峻的是数据获取的“不可能三角”：精度、规模、成本三者难以兼得。真机遥操作数据精度最高，但成本呈指数级上升——真实场景采集时，一小时仅能采集20条有效轨迹数据，且存在30%的行为偏差。互联网视频数据规模庞大却缺乏物理真实性，合成数据成本低却面临“仿真到现实”（Sim2Real）的迁移鸿沟。

帕西尼感知科技创始人指出：“当前具身智能所能使用的数据量仅为大语言模型的几百分之一”，这种数量级的差距构成了具身智能发展的“数据鸿沟”。

第2章具身智能的数据采集路线

数据是具身智能的“第一性原理”，采集方式决定智能上限。面对百万小时的训练数据需求，行业正从“强依赖本体”向“无本体数据采集”迁移。

图1 具身智能的技术架构与数据需求

具身智能技术架构从数据输入层开始，经过感知层（视觉、触觉、力觉等多模态感知融合）、认知决策层（大脑大模型进行任务规划与推理）、执行层（小脑模型进行运动规划与控制），最终在物理世界完成任务执行。各层级之间通过数据闭环形成反馈，数据贯穿整个技术栈，是驱动各层级协同运作的核心纽带。当前数据需求的焦点在于获取包含“状态-动作-反馈”完整链条的多模态轨迹数据。

图2 具身智能数据金字塔结构

具身智能数据金字塔自底向上分为四个层级：互联网数据（最底层，规模最大但缺乏物理真实性）；人类行为数据（通过动作捕捉、视频学习等方式获取，具备一定物理真实性）；合成数据（通过仿真环境生成，可控性强但存在Sim2Real鸿沟）；真实世界真机数据（金字塔顶端，质量最高但成本最昂贵）。该金字塔在2025年建立，2026年被广泛运用，届时耦合VLA（视觉语言动作模型）与世界动作模型的整个技术将迎来真正的跳跃。

2.1 遥操作数据

遥操作数据是当前占据金字塔顶端的高质量数据来源。遥操作指由专人通过手柄等设备操控机器人，同步采集动作数据用于模型训练。

2.1.1 位姿类遥操作

图3 Mobile ALOHA 方案示意及操作演示

Mobile ALOHA是斯坦福大学提出的低成本全身遥操作学习系统，通过模仿学习将人类遥操作数据转化为机器人操作策略。系统由移动基座和两个机械臂组成，操作员通过主从式遥操作控制机器人执行复杂长程任务，如烹饪、清洁等，采集成本显著低于传统方案。

图4 AirExo-2 系统与 RISE-2 策略网络结构

AirExo-2是一种低成本外骨骼式遥操作采集系统，操作员穿戴外骨骼设备进行演示操作，系统同步记录关节角度、力反馈等精细数据。RISE-2策略网络则基于采集的数据进行模仿学习与强化学习的结合训练。

智元机器人在上海张江启用行业首个数据采集工厂，占地4000平方米，分割为家居、餐饮、工业等不同主题场景，每日超100台机器人同步训练，单机单日可产生上万条高质量轨迹数据。2025年，智元开源了百万真机数据集AgiBot World，覆盖80余种日常生活技能，长程数据规模较Google的Open X-Embodiment高出10倍，场景覆盖面扩大100倍。

2.1.2 视觉类遥操作

图5 UMI 方案展示多种任务演示

UMI（Universal Manipulation Interface，通用操作接口）是斯坦福大学2024年提出的革命性方案，确立了“手持夹爪+GoPro手腕摄像头”的核心范式，让人类手部成为“通用的数据接口”。其本质在于通过手持夹爪、摄像头和位姿估计算法，将人类手势动作直接转化为机器人可学习轨迹的低成本数采方案。这种新范式解决了真机数据采集成本高、效率低、数据跨本体不可复用、数据多样性受限等一系列问题。国内初创公司鹿明机器人推出的FastUMI Pro，将单条数据采集时间从50秒缩短至10秒，综合成本降至传统方法的五分之一。

图6 DexPilot 系统工作空间布局

DexPilot是由NVIDIA和斯坦福大学联合开发的视觉遥操作系统，通过深度摄像头捕捉人手姿态，经神经网络映射至灵巧手，实现高精度灵巧操作数据采集。

图7 Bunny-VisionPro 系统示意

Bunny-VisionPro将Apple Vision Pro空间计算设备应用于遥操作数据采集，操作员通过头显设备获得沉浸式第一视角体验，系统同步捕捉操作员的头部运动和手势信息，实现更直观、更高效的数据采集。

2.1.3 动作捕捉数据

图8 诺亦腾手指惯性动捕方案

诺亦腾的手指惯性动作捕捉方案通过MEMS惯性传感器实时追踪手指各关节的运动姿态，无需光学标记和复杂标定，可穿戴性强，适用于日常作业场景下的高精度数据采集。

图9 DexCap 系统方案示意

DexCap是一种基于电容传感的灵巧手数据采集方案，通过在机器人手指表面部署电容传感器阵列，直接获取接触力分布、物体形变等精细触觉信息，突破传统视觉动捕在接触感知方面的局限。

图10 帕西尼感知 PMEC 数采方案

帕西尼感知的PMEC（Piezoelectric Micro-Electrode Capacitive）方案融合压电与电容传感技术，实现亚毫米级精度的接触力感知，为精密装配等需要触觉反馈的任务提供关键数据支撑。

图11 诺亦腾 PN Studio 方案构成

诺亦腾PN Studio是面向机器人数据采集的一站式解决方案，集成全身动作捕捉、手部精细动作追踪和场景三维重建，为具身智能模型训练提供完整的多模态数据采集能力。诺亦腾在深圳龙华区揭牌运营机器人跨本体数据工厂，推进“无本体数据采集”的规模化——将传感器直接穿戴在操作者身上，实现数据采集与机器人本体解耦。

2.3 互联网视频数据和合成数据

2.3.1 人类视频示范数据

灵初智能提出了利用人类操作数据作为机器人预训练主料的路线。其Psi-R2预训练同时使用真机数据和人类数据——真机数据来自Psi-MobiDex数据集（5417小时），人类数据总规模95472小时，覆盖294种场景、4821种任务、1382种物体。这种方法的吸引力在于：一是来源天然丰富，人本来就在不停干活；二是数据更贴近真实作业，天然带着任务目标、动作细节和节拍信息。

2.3.2 合成数据

合成数据则是规模化预训练的“终极答案”。NVIDIA推出的MimicGen方案、NVIDIA Cosmos平台提供预训练的生成式世界基础模型，开发者可直接生成合成数据或微调使用，加速物理AI系统开发。高德ABot-World通过批量合成Video、Depth、Point Cloud、Trajectory四类训练数据，配合RL Training Engine在虚拟环境里定义奖惩、反复试错，以高保真仿真替代高昂的真机采集，从而弥合Sim-to-Real鸿沟，将数据成本压缩数个数量级。

第3章自动驾驶的数据发展经验

自动驾驶作为具身智能重要的子领域，其落地过程和经验具有借鉴意义，是具身智能发展过程中的“避坑指南”。

3.1 高精地图：静态真实数据的经验与教训

自动驾驶早期依赖高精地图——将“实时理解环境”简化为“在已知地图定位”，虽加速技术落地，却带来路径依赖：制作成本高、鲜度维护难、泛化能力受限。最终，行业转向“影子模式”——利用量产车在日常行驶中实时回传数据，经云端融合处理，实现动态更新。这一转变对具身智能的启示深刻：真正的智能体现在对未知环境的适应，而非对预采数据的记忆。

3.2 数据异构融合：分层采集与合成

具身智能面临更严峻的“冷启动”困境——自动驾驶可与汽车销售同步启动数据采集，而机器人尚未大规模进入真实场景，数据飞轮在启动前是断裂的。破解之道在于“仿真优先，真机验证”的混合范式。

3.3 数据驱动的闭环：仿真优先，真机验证

自动驾驶的工程化实践表明，云端并行仿真可在数小时内完成相当于数百万公里路测的场景覆盖，实现算法版本的快速迭代。国内流形空间（Manifold AI）首创的WMA（World Model Action）路线，以世界模型作为机器人的基础模型，自研通用空间世界模型WorldScape，具备“推理想象-行动”三位一体能力，已在无人机领域实现落地突破。

图12 数据飞轮结构与迭代示意

数据飞轮是具身智能实现持续自我进化的核心机制。其结构包含三个互相咬合的层级：数据层（采集真实世界交互数据）、模型层（训练与优化策略模型）、应用层（在真实场景部署并产生新的数据）。飞轮运转的逻辑是“数据驱动模型、模型服务应用、应用反哺数据”，形成持续自我进化的完整闭环。高德ABot体系即是这种飞轮设计的典型代表，精准击穿数据稀缺、仿真鸿沟与技能泛化三大行业瓶颈。银河通用创始人王鹤认为，构建数据飞轮是破局关键——让机器人在真实环境中自主处理corner case（边角案例），持续不断地自我提升效率。

第4章具身智能数据发展评估

图13 具身智能数据框架及挑战

当前具身智能数据框架面临三大核心挑战：数据规模不足、数据质量不均、数据标准缺失。从数据供给侧看，真机遥操作数据受限于成本和效率难以大规模扩展；从数据需求侧看，百万小时级的训练需求与现有数据量之间存在巨大缺口；从数据治理侧看，跨本体数据格式不统一、缺乏行业标准，导致数据孤岛问题严重。

4.1 真机遥操作数据在不同发展阶段提供不同价值

真机遥操作数据当前占据金字塔顶端，但纯遥操作路径在经济和工程化层面面临瓶颈。具身智能领域存在一个心照不宣的焦虑：真机遥操作数据这条路可能走不下去——成本是一方面，采集一小时数据动辄花数百元，还得搭一套专业动捕环境；速度更是硬伤，人盯着屏幕遥控机械臂，采集节奏很难跟上真实生产节拍。

4.2 无本体数据采集有望推动模型性能

无本体数据采集代表了行业新趋势。UMI范式的普及正在开启一场“数据平权”——通过更低的硬件成本、更高的产出效率让数据不再只是昂贵的稀缺资源，也不再只是少数头部企业的先天优势。从生态来说，数据采集不再需要困在数据采集工厂，而是走向真实物理世界中，还原更多真实任务。鹿明机器人联席CTO丁琰表示：“2026年，我们希望建立起100万小时规模的具身真机数据产能”。穹彻智能RoboPocket也已经开始进行众包数采小规模测试，“全员数采的时代，可能比我们想象中来得更早”。

4.3 仿真系统是一套必要强大的非完美工具

仿真合成数据成本低却面临Sim2Real迁移鸿沟。目前行业正在探索多种缓解方案：通过域随机化增强模型泛化能力、利用少量真机数据对合成数据训练的模型进行微调、构建高保真物理仿真引擎（如ABot-World首创Diffusion-DPO物理偏好对齐框架，在物理合规性、动作可控性、零样本泛化三大维度均达SOTA）。仿真系统虽非完美，但在数据成本压力下是不可或缺的补充工具。

第5章数据视角下的渐进式商业化道路

具身智能的“GPT-3.5时刻”尚未到来，但商业化路径已日渐清晰。千寻联合创始人高阳认为，2025年处于具身智能的GPT-2.0时代，解决了很多数据层面的基础设施问题；2026年的工作重心会是处理越来越大的模型、越来越多的数据、保证规模化的效果。

5.1 少量数据构建原型和工程环境的执行能力

第一阶段，当前多数企业利用数十至数百条高质量演示数据，训练机器人掌握特定结构化任务。然而，a16z的深度洞察指出：实验室里95%成功率的策略，一旦进入真实仓库，光照、背景、视角、物体材质发生变化，成功率可能迅速跌至60%。

5.2 聚焦场景，大量数据驱动算法迭代与标准化

第二阶段，国内已建成或计划在建的具身智能训练场达20余家，其中10家公开披露的训练场总面积超过4万平方米。上海张江“麒麟”训练场、北京石景山触觉感知数训中心、天津帕西尼超级数据工厂等正在加速建设。垂直场景解决方案——工业精密装配、仓储柔性物流等领域，已展现清晰商业化前景。德马科技与智元合作搭建的物流数据采集工厂，正构建可持续迭代的“数据-模型-场景”技术闭环。白皮书提出，破局关键在于推动数据资产化、建设开放式数据采集场景，并为机器人赋予“商业智能”，实现物理执行与商业决策的深度融合。

5.3 海量数据实现高阶功能的闭环拓展

第三阶段，随着具身智能“开发态”数据飞轮带来智能突破，行业进入部署成长期，机器人从“动起来”到“能干活”，释放出生产力，应用场景进一步拓展。数据规模正在重塑竞争格局——正如有行业洞察者指出，具身智能本质上不是硬件公司，而是AI数据基础设施公司。

第6章机会与风险总结

6.1 发展机会分析

6.1.1 感知技术创新，为多模态数据提供入口

视触觉融合技术正在显著提升数据效率。港大联合复旦、上交大提出的TAMEn方案，在多项双臂协作任务中将平均成功率从34%提升至75%。触觉数据的引入能显著降低模型训练对数据规模的依赖——相比视觉信息，触觉能直接感知接触关系与物体特性，避免多视角采集带来的冗余与遮挡。北京石景山区投用的全国最大人形机器人训练基地，更让机器人掌握“头发丝级”的触觉感知——0.01牛的力度识别精度。

6.1.2 数据采集与治理是推动具身智能走向标准化的底层基础

行业正从数据“有没有”迈向数据“好不好”。智元机器人提出的ADC（对抗数据采集）模式，通过增加数据的信息密度和多样性，以20%的数据量达到传统方案2.7倍的效果。配合“HIL-SERL”强化学习系统，机器人能在真实世界中1-2.5小时内学会多种高精度、灵巧操作任务，成功率接近100%。

6.1.3 关注垂直场景解决方案，加速模型训练与部署

工业精密装配、仓储柔性物流等领域已展现清晰商业化前景。在真实场景里，模型、硬件、场景系统三者融合，一起去解决问题。

6.1.4 真机失败数据正加速具身智能的落地进程

被忽视的负面样本（失败数据）对模型能力提升至关重要。智元ADC模式证明，对抗性数据能以更少样本实现更强效果。

6.1.5 世界模型是通往具身“GPT-3.5”时刻的潜在路径，但仍需耐心

蚂蚁灵波发布的LingBot-VA模型，创“边推演、边行动”框架，在LIBERO基准测试中任务成功率达98.5%。尽管仍需耐心，世界模型被视为通往具身“GPT-3.5时刻”的潜在路径。

6.1.6 数据隐私之争远未终结，能否“完全无本体”仍是开放命题

数据采集从本体依赖走向无本体采集，带来的不仅是技术范式的转变，更涉及数据所有权、隐私保护等深层伦理问题。

6.2 风险与挑战

· 技术架构快速迭代与路径收敛风险：算法技术尚未收敛，多路径探索快速迭代，技术路线选择存在较大不确定性；
· 数据可用性验证的投入风险：训练场建设成热点，但实际效用仍需进一步验证；
· 数据安全、隐私与伦理监管风险：跨本体数据采集和众包模式带来新的安全合规挑战；
· 产品功能安全保障缺失的人机交互风险：安全问题引发关注，成为规模化落地限制要素；
· 行业生态与标准缺失的风险：标准体系有序建设，正在针对性解决产业亟需问题，但体系尚不完善；
· 商业化进程不及预期的风险：从实验室到产业化仍有较长的路要走，商业化节奏存在不确定性。

附录常见数据集整理

表2 常见具身智能操作数据集

数据集名称发布机构数据规模主要特征
AgiBot World 智元机器人百万级轨迹覆盖80余种日常生活技能，长程数据规模较Google Open X-Embodiment高10倍
Open X-Embodiment Google 百万级轨迹跨机构联合数据集，覆盖多种机器人平台和任务类型
Psi-MobiDex 灵初智能 5417小时真机数据覆盖手机装配、工业包装、纸盒折叠等长时序高精度任务
RT-1/RT-2 Google DeepMind 13万+条演示基于Transformer的机器人操作数据集
DROID Stanford等 76k条演示跨平台灵巧操作数据集
BridgeData V2 UC Berkeley 60k条演示多场景机器人操作数据集

表3 常见具身智能运动数据集

数据集名称发布机构数据规模主要特征
HumanPlus 灵初智能等 95472小时人类数据覆盖294种场景、4821种任务、1382种物体
Ego4D Meta等 3670小时第一视角视频数据集，覆盖全球74个城市
Epic-Kitchens Bristol等 100小时厨房场景第一视角操作视频数据集
Something-Something TwentyBN 220k视频人类手部动作视频数据集
RoboNet Stanford等 1500万帧多机器人运动轨迹数据集

报告核心结论：具身智能作为人工智能从数字世界“认知智能”向物理世界“行动智能”的跨越，正面临数据规模不足、获取成本高企、质量参差不齐的三重挑战。行业正从依赖昂贵的真机遥操作数据，向“无本体数据采集+仿真合成+互联网视频”的混合数据生态转型。借鉴自动驾驶“仿真优先，真机验证”的工程化经验，具身智能将沿着“少量数据构建原型→聚焦场景大量数据驱动迭代→海量数据实现闭环拓展”的渐进式商业化路径演进。构建“低成本、大规模、高保真”的数据飞轮，是突破具身智能数据瓶颈、推动产业从实验室走向规模化的关键所在。