京东「60万人计划」深度研究报告 — 具身智能视角的技术与战略分析_展会资讯_资讯

京东「60万人计划」深度研究报告 — 具身智能视角的技术与战略分析

一、事件概述：京东「60万人计划」到底在做什么？

2026年3月16日，京东正式宣布启动建设「全球规模最大的具身智能数据采集中心」。4月16日的具身智能生态发布会上，京东揭开了这一计划的全貌：

核心目标：动员最多60万人（10万京东员工 + 50万外部协作人员），在两年内积累1000万小时人类真实场景第一视角视频数据。

同步发布的产品矩阵：

• 自研可穿戴采集终端 JoyEgoCam

• 具身大模型 JoyAI-RA

• 具身智能数据交易平台

• 全链路数据基础设施（覆盖"采、存、标、训、评、仿、测"）

60万人的构成：京东线下零售门店店员、京东物流快递员、京东家政保洁人员等内部员工超10万名；外部覆盖工厂工人、餐饮服务员、医护人员、环卫工人等各行业从业者最多50万名。仅宿迁一地就计划组织超10万市民参与。

商业侧配套：京东零售2026年目标助推机器人品牌伙伴累计销售破100亿元；已与近200个家电家居、机器人、玩具品牌通过JoyInside平台合作；推出"机器人救护车"售后服务，3年覆盖全国50+城市。

这不是一个简单的「搞数据」项目。这是京东把自己定位为具身智能时代的基础设施供应商——一个数据层面的「AWS」。

二、行业背景：为什么数据是具身智能的命门？

2.1 数据荒漠的真实规模

截至2026年初，全球高质量真实物理交互数据总量仅约50万小时。而训练一个具备泛化能力的具身大模型，行业共识至少需要1000万小时真实场景数据——缺口高达20倍。

作为对比：GPT-5级别语言模型的训练语料约100亿小时，具身数据只有其两万分之一。这不是量级差距，这是维度差距。

2.2 为什么具身数据如此难采？

从具身智能技术专家的视角看，这个问题的根源在于：

（1）数据采集的物理约束

语言数据可以爬网页，图像数据可以下载图库。但具身数据必须在真实物理环境中，由真实的物理实体（人或机器人）执行真实的物理交互来产生。你不能从互联网上「下载」一段「人在厨房切菜时手部6DoF轨迹+力反馈+第一视角RGB-D视频」的数据。

（2）传统遥操作成本过高

行业主流的高质量数据采集方式是「遥操作」（Teleoperation）——操作员远程控制机器人执行任务，同步录制传感器数据。智元机器人在上海浦东的4000平方米工厂，单机单日产出也仅千条级别。单小时有效数据成本超过500元人民币，且操作员培训门槛极高。

（3）「数据跟着本体走」的结构性困境

不同品牌、型号的机器人传感器布局、控制模态千差万别。用宇树H1遥操作采集的数据，无法直接用于训练智元A2。每换一套本体就要重新采集。数据资产无法跨本体复用，这是制约行业规模化的根本瓶颈。

（4）仿真数据的Sim2Real Gap

纯仿真合成数据成本低、产能大，但虚拟环境永远无法完全模拟真实世界的摩擦力、阻尼、材质形变等物理参数。模型从仿真迁移到真机时，细微的物理偏差就可能导致动作完全失效。这就是著名的Sim-to-Real Gap。

2.3 行业四条路线的现状与局限

路线一：遥操作真机采集 — 质量最高，成本最贵，无法规模化。代表：智元机器人。

路线二：便携式UMI采集 — 规模化最快，但主流设备只采集夹爪动作，缺乏触觉/力觉反馈，数据质量参差不齐。代表：鹿明、蚂蚁灵波。

路线三：仿真合成 — 成本最低、产能最大，但Sim2Real Gap始终存在。代表：光轮智能（全球首个具身数据独角兽，2026年3月完成10亿元融资）。

路线四：人类自然演示 — 通过智能手套等设备捕捉人手操作轨迹和力度。精度高但单套设备成本超1万元。代表：它石智航（2026年4月完成4.55亿美元Pre-A轮，中国具身智能单轮融资记录）。

共同困境：四条路线的数据格式、标注规范各自为政，形成严重的数据孤岛。多模态数据时空不同步、脏数据泛滥。没有统一的流通标准，大量算法原型困在实验室无法量产。

三、技术深度剖析：京东方案的架构与创新点

3.1 数据金字塔架构

京东的方案不押注单一技术路线，而是用「混合数据路线」整合四条路线的优势，构建了一个三层数据金字塔：

底层（千万小时量级）：人类第一视角Ego视频。来自京东3600+仓库、1万+线下门店、20万+药房、5万家政人员的日常作业。走UMI/Ego路线，解决基础数据量的问题。

中层（百万小时量级）：人类实操数据 + JoyBuilder仿真增广。补齐动作规划和跨本体泛化能力。实现人类操作数据→仿真数据→真机数据的高效增值转换。

顶层（高价值精标数据）：遥操作和UMI变体产生的高精度数据，用于特定机器人本体的精调（Fine-tuning）。

3.2 JoyEgoCam：把专业采集变成「即戴即采」

从硬件参数看，JoyEgoCam的设计思路很清晰——追求在可大规模部署的前提下尽可能提高数据质量：

• 4K分辨率 + 60fps：满足视觉模型对空间细节和时序连续性的基本要求

• 130°超广角：第一视角采集必须覆盖人手操作的完整视野

• 重投影误差 < 0.2像素：关键指标，意味着相机内参标定精度高，后续做3D重建和深度估计时几何误差可控

• 车规级6轴IMU + 多传感器融合：提供准确的设备位姿信息（6DoF），这对于将第一视角数据映射到机器人坐标系至关重要

• 整机仅220克：可穿戴 → 可众包，这是实现60万人大规模采集的硬件前提

技术评估：JoyEgoCam的定位是Ego-centric视觉数据的大规模采集工具。它的局限在于只采集RGB视觉+IMU姿态数据，缺乏深度（Depth）、力/力矩（Force/Torque）、触觉（Tactile）信息。这意味着采集到的数据主要适用于训练视觉-语言-动作（VLA）模型的视觉理解和动作规划部分，但对于需要精细力控的灵巧操作任务（如拧螺丝、插接头），仍需配合遥操作或智能手套等方式补充力觉数据。

3.3 JoyAI-RA：WAM预训练 + RL后训练的双阶段架构

京东具身大模型JoyAI-RA的技术路线值得关注：

第一阶段：WAM（World Action Model）预训练

从海量第一视角视频中学习因果决策——即「看到什么场景→应该执行什么动作」的映射关系。这本质上是一个大规模的Behavior Cloning过程，但数据来源从遥操作拓展到了人类日常操作视频。

第二阶段：RL（Reinforcement Learning）后训练

在真实世界的交互反馈中持续优化。这一步是将WAM学到的先验知识适配到具体机器人本体和具体任务。

官方宣称真机实验成功率73.5%，超过pi0.5等SOTA模型。

技术评估：WAM+RL的双阶段范式与当前学术界的主流趋势一致（如Google RT-2、Physical Intelligence的pi系列）。但73.5%的成功率需要看具体的benchmark——如果是简单的Pick-and-Place任务，这个数字中规中矩；如果是涉及多步操作、长时序规划的复杂任务，则相当可观。目前缺乏公开的对比评测细节，需持续跟踪。

3.4 全链路数据处理Pipeline

京东发布的全链路覆盖「采→存→标→训→评→仿→测」七个环节：

存：AI数据湖平台，PB级吞吐，自动完成清洗、对齐、转换、预标注

标：AI算子矩阵贯穿数据去畸变、语义描述、深度重建等环节

训：JoyBuilder模型开发平台，支持"开箱即训"

仿：JoyBuilder仿真平台批量生成高逼真仿真数据，实现人→仿→真的泛化增广

评/测：闭环评测体系

官方数据：日处理数据量达数十万条，数据有效率95%，整体处理成本降低60%。

技术评估：95%的数据有效率是一个关键指标。众包采集最大的问题就是数据质量参差不齐——UMI社区经验表明，无实时质控的话，一周采集可能超半数是废数据。京东能达到95%有效率，要么质控算法确实强，要么对"有效"的定义比较宽松。这个数字需要后续的第三方评测来验证。

四、战略定位分析：京东在做什么生意？

4.1 不造机器人，做机器人行业的「基础设施」

京东的战略定位非常清晰：不做机器人本体，做具身智能时代的「超级供应链」。

这和京东过去20年做的事情逻辑完全一致——在零售领域，京东不生产商品，但构建了从仓储到配送的完整供应链基础设施。现在，京东试图在具身智能领域复制同样的模式：

供给侧：数据采集中心 + 云端算力 + 仿真平台 + 全球供应链（物料采购→组装→出海）

需求侧：京东零售全渠道（App + 门店 + Joybuy海外）+ 品牌营销资源 + 售后服务体系

4.2 与特斯拉的路线之争

这形成了一个有趣的产业对照：

特斯拉路线（垂直闭环）：自研Optimus本体→在自有工厂部署→产生的数据只服务自家机器人→数据与硬件天然对齐→迭代效率极高→但生态封闭。

京东路线（开放平台）：不做本体→为所有机器人公司提供数据+供应链+渠道→数据开放交易→解决行业共性问题→但面临数据跨本体复用难题。

从具身智能行业发展规律看，这两种路线各有不可替代的价值：

• 特斯拉的壁垒在于硬件-数据的深度耦合，数据效率行业最高

• 京东的壁垒在于产业生态的广度和厚度，规模效应一旦形成很难被复制

4.3 京东的「六连投」布局

2025年5月至8月，京东74天内完成6笔机器人领域投资，创下"一日3笔领投"的行业纪录：

投资对象包括：智元机器人、千寻智能、逐际动力、众擎机器人等，累计投资超50亿元，覆盖工业、消费、服务等多个细分赛道。

2026年1月，宇树科技全球首家线下门店在京东MALL北京双井店开业。

这不是财务投资，而是生态投资——通过投资绑定上游机器人企业，再通过数据+渠道+售后形成深度协同，最终构建一个以京东为枢纽的机器人产业生态。

五、关键问题与风险评估

5.1 众包数据质量能否保证？

这是60万人计划最核心的技术挑战。

乐观因素：

京东有成熟的大规模劳动力管理经验（物流体系数十万人的精细化管理）；

自研JoyEgoCam降低了采集门槛；

全链路数据处理可自动筛除低质数据。

悲观因素：

具身数据的质量评估远比物流KPI复杂。

一个快递员佩戴JoyEgoCam拍到的分拣视频，和一个在实验室精心设计的Pick-and-Place实验数据，在训练价值上可能相差100倍。

海量低质数据不等于高质量训练集——「垃圾进、垃圾出」是机器学习的铁律。

5.2 Ego视频到机器人动作的迁移鸿沟

60万人计划采集的核心数据是人类第一视角视频。但机器人需要的是可执行的动作序列。

从Ego视频到机器人动作，存在多个技术鸿沟：

• 视角差异：人眼视角 vs 机器人摄像头视角

• 本体差异：人手5指21自由度 vs 机械臂/夹爪6-7自由度

• 动力学差异：人类动作的力学特性 vs 机器人执行器特性

• 隐式知识：人类操作中大量的力觉反馈、触觉信息在纯视觉数据中不可见

这些问题并非不可解——学术界有大量的Cross-embodiment Transfer研究（如Google的RT-X项目），但目前仍是开放性问题。

京东的JoyAI-RA的WAM预训练试图部分解决这个问题，但效果还需要更多证据。

5.3 数据合规与隐私风险

60万人在上百个真实场景中佩戴摄像头录制视频，不可避免地会拍到：

• 其他人的面部、行为

• 商业场所的运营信息

• 家庭环境的私密空间

京东声称采集"合法合规"，但中国的数据保护法规（《个人信息保护法》《数据安全法》）对此类大规模影像采集的约束非常严格。特别是外部50万协作人员的管理——如何确保每一个采集场景都获得了所有被摄对象的知情同意？这是一个在组织层面极具挑战的问题。

5.4 数据交易平台的信任问题

京东推出的具身智能数据交易平台，首批开放2000小时高精标注数据集。但：

• 机器人企业是否愿意将自己的核心训练数据放到京东的平台上交易？

• 京东同时是数据的供给方和平台运营方，如何保证中立性？

• 数据定价机制如何设计——按小时？按任务类型？按标注精度？

这与京东电商平台面临的"既做裁判又做运动员"质疑本质相同。

5.5 投资回报周期的不确定性

京东零售2026年目标100亿机器人品牌销售额。

但目前消费级机器人市场仍处早期——宇树双井门店开业当日打出"销售额破十万"的标识，说明实际销售并不火爆。

从具身智能行业整体进度看，2026年仍是"基建之年"，而非"收获之年"。

1000万小时数据采集、数据交易平台运营、JoyAI-RA模型迭代，这些都是重资产、长周期投入。

ROI的兑现可能需要3-5年甚至更久。

六、从具身智能技术发展角度的评价

6.1 值得肯定的方面

（1）正确识别了行业核心瓶颈。

数据确实是当前具身智能从demo到产品的最大障碍。京东不去做第N个机器人本体，而是切入数据基建，定位准确。

（2）混合数据路线比单一路线更务实。

不押注遥操作、不押注仿真、不押注UMI，而是用供应链逻辑整合所有路线的优势。从工程落地的角度看，这比学术界追求单一技术路线的极致更具产业价值。

（3）利用既有场景资源降低边际成本。

京东3600个仓库、上万门店本身就是真实物理交互的天然场域。将现有生产性劳动转化为数据采集的附加产出，不需要从零建设数据工厂，是一种结构性的成本优势。

（4）全链路闭环设计。

从采集硬件到数据处理到模型训练到交易平台，一条龙解决了中小机器人企业的数据痛点。

6.2 需要持续观察的方面

（1）Ego视频的真实训练价值。

1000万小时Ego视频 ≠ 1000万小时有效训练数据。

人类日常操作视频到底能为机器人模型贡献多少可迁移的知识？学术界对此仍有争议。

（2）跨本体数据复用的技术突破。

这是60万人计划能否真正改变行业的关键。

如果采集到的数据只能服务于特定品牌的特定型号，那么"开放平台"的价值就大打折扣。

（3）JoyAI-RA的真实竞争力。

73.5%真机成功率的claim需要在标准化benchmark上得到第三方验证。

Physical Intelligence的pi0、Google DeepMind的RT系列都在快速迭代，具身大模型的竞争窗口期非常短。

（4）生态黏性的建立。

京东的"超级供应链"能否真正让机器人企业离不开？

还是仅仅是一个锦上添花的渠道？

这取决于数据质量、模型效果和商业模式是否真正形成正向飞轮。

七、总结

京东60万人计划的本质，是一家拥有庞大物理基础设施的供应链公司，试图将自己的线下资产转化为具身智能时代的数据基建优势。

从技术路线看：混合数据金字塔 + 全链路处理Pipeline + WAM+RL双阶段模型，方向正确、架构合理，但关键技术（Ego-to-Robot Transfer、跨本体泛化）仍是开放问题。

从商业逻辑看：不造机器人、做基础设施，避开了与宇树/智元/特斯拉的正面竞争，切入了行业真正的痛点。但"既做平台又做数据供给方"的双重角色存在潜在利益冲突。

从行业影响看：如果京东真的能在两年内积累1000万小时高质量数据并建立开放的数据流通标准，这将从根本上改变具身智能行业的数据格局——从"每家从零采集"变为"标准化数据市场"。

最终判断：京东60万人计划是一个方向正确、力度足够、但执行挑战巨大的产业基建工程。它的成败不取决于能否采集到1000万小时数据——这只是一个量的指标。真正的考验在于：这些数据能否被高效转化为机器人可用的训练素材，能否真正帮助机器人从实验室走进千家万户。

2026年是具身智能的「数据基建之年」，京东已经抢先落子。

接下来的12-24个月，将检验这颗棋子是否真正落在了关键位置。