一、事件概述:京东「60万人计划」到底在做什么?
2026年3月16日,京东正式宣布启动建设「全球规模最大的具身智能数据采集中心」。4月16日的具身智能生态发布会上,京东揭开了这一计划的全貌:
核心目标:动员最多60万人(10万京东员工 + 50万外部协作人员),在两年内积累1000万小时人类真实场景第一视角视频数据。
同步发布的产品矩阵:
• 自研可穿戴采集终端 JoyEgoCam
• 具身大模型 JoyAI-RA
• 具身智能数据交易平台
• 全链路数据基础设施(覆盖"采、存、标、训、评、仿、测")
60万人的构成:京东线下零售门店店员、京东物流快递员、京东家政保洁人员等内部员工超10万名;外部覆盖工厂工人、餐饮服务员、医护人员、环卫工人等各行业从业者最多50万名。仅宿迁一地就计划组织超10万市民参与。
商业侧配套:京东零售2026年目标助推机器人品牌伙伴累计销售破100亿元;已与近200个家电家居、机器人、玩具品牌通过JoyInside平台合作;推出"机器人救护车"售后服务,3年覆盖全国50+城市。
这不是一个简单的「搞数据」项目。这是京东把自己定位为具身智能时代的基础设施供应商——一个数据层面的「AWS」。
二、行业背景:为什么数据是具身智能的命门?
2.1 数据荒漠的真实规模
截至2026年初,全球高质量真实物理交互数据总量仅约50万小时。而训练一个具备泛化能力的具身大模型,行业共识至少需要1000万小时真实场景数据——缺口高达20倍。
作为对比:GPT-5级别语言模型的训练语料约100亿小时,具身数据只有其两万分之一。这不是量级差距,这是维度差距。
2.2 为什么具身数据如此难采?
从具身智能技术专家的视角看,这个问题的根源在于:
(1)数据采集的物理约束
语言数据可以爬网页,图像数据可以下载图库。但具身数据必须在真实物理环境中,由真实的物理实体(人或机器人)执行真实的物理交互来产生。你不能从互联网上「下载」一段「人在厨房切菜时手部6DoF轨迹+力反馈+第一视角RGB-D视频」的数据。
(2)传统遥操作成本过高
行业主流的高质量数据采集方式是「遥操作」(Teleoperation)——操作员远程控制机器人执行任务,同步录制传感器数据。智元机器人在上海浦东的4000平方米工厂,单机单日产出也仅千条级别。单小时有效数据成本超过500元人民币,且操作员培训门槛极高。
(3)「数据跟着本体走」的结构性困境
不同品牌、型号的机器人传感器布局、控制模态千差万别。用宇树H1遥操作采集的数据,无法直接用于训练智元A2。每换一套本体就要重新采集。数据资产无法跨本体复用,这是制约行业规模化的根本瓶颈。
(4)仿真数据的Sim2Real Gap
纯仿真合成数据成本低、产能大,但虚拟环境永远无法完全模拟真实世界的摩擦力、阻尼、材质形变等物理参数。模型从仿真迁移到真机时,细微的物理偏差就可能导致动作完全失效。这就是著名的Sim-to-Real Gap。
2.3 行业四条路线的现状与局限
路线一:遥操作真机采集 — 质量最高,成本最贵,无法规模化。代表:智元机器人。
路线二:便携式UMI采集 — 规模化最快,但主流设备只采集夹爪动作,缺乏触觉/力觉反馈,数据质量参差不齐。代表:鹿明、蚂蚁灵波。
路线三:仿真合成 — 成本最低、产能最大,但Sim2Real Gap始终存在。代表:光轮智能(全球首个具身数据独角兽,2026年3月完成10亿元融资)。
路线四:人类自然演示 — 通过智能手套等设备捕捉人手操作轨迹和力度。精度高但单套设备成本超1万元。代表:它石智航(2026年4月完成4.55亿美元Pre-A轮,中国具身智能单轮融资记录)。
共同困境:四条路线的数据格式、标注规范各自为政,形成严重的数据孤岛。多模态数据时空不同步、脏数据泛滥。没有统一的流通标准,大量算法原型困在实验室无法量产。
三、技术深度剖析:京东方案的架构与创新点
3.1 数据金字塔架构
京东的方案不押注单一技术路线,而是用「混合数据路线」整合四条路线的优势,构建了一个三层数据金字塔:
底层(千万小时量级):人类第一视角Ego视频。来自京东3600+仓库、1万+线下门店、20万+药房、5万家政人员的日常作业。走UMI/Ego路线,解决基础数据量的问题。
中层(百万小时量级):人类实操数据 + JoyBuilder仿真增广。补齐动作规划和跨本体泛化能力。实现人类操作数据→仿真数据→真机数据的高效增值转换。
顶层(高价值精标数据):遥操作和UMI变体产生的高精度数据,用于特定机器人本体的精调(Fine-tuning)。
3.2 JoyEgoCam:把专业采集变成「即戴即采」
从硬件参数看,JoyEgoCam的设计思路很清晰——追求在可大规模部署的前提下尽可能提高数据质量:
• 4K分辨率 + 60fps:满足视觉模型对空间细节和时序连续性的基本要求
• 130°超广角:第一视角采集必须覆盖人手操作的完整视野
• 重投影误差 < 0.2像素:关键指标,意味着相机内参标定精度高,后续做3D重建和深度估计时几何误差可控
• 车规级6轴IMU + 多传感器融合:提供准确的设备位姿信息(6DoF),这对于将第一视角数据映射到机器人坐标系至关重要
• 整机仅220克:可穿戴 → 可众包,这是实现60万人大规模采集的硬件前提
技术评估:JoyEgoCam的定位是Ego-centric视觉数据的大规模采集工具。它的局限在于只采集RGB视觉+IMU姿态数据,缺乏深度(Depth)、力/力矩(Force/Torque)、触觉(Tactile)信息。这意味着采集到的数据主要适用于训练视觉-语言-动作(VLA)模型的视觉理解和动作规划部分,但对于需要精细力控的灵巧操作任务(如拧螺丝、插接头),仍需配合遥操作或智能手套等方式补充力觉数据。
3.3 JoyAI-RA:WAM预训练 + RL后训练的双阶段架构
京东具身大模型JoyAI-RA的技术路线值得关注:
第一阶段:WAM(World Action Model)预训练
从海量第一视角视频中学习因果决策——即「看到什么场景→应该执行什么动作」的映射关系。这本质上是一个大规模的Behavior Cloning过程,但数据来源从遥操作拓展到了人类日常操作视频。
第二阶段:RL(Reinforcement Learning)后训练
在真实世界的交互反馈中持续优化。这一步是将WAM学到的先验知识适配到具体机器人本体和具体任务。
官方宣称真机实验成功率73.5%,超过pi0.5等SOTA模型。
技术评估:WAM+RL的双阶段范式与当前学术界的主流趋势一致(如Google RT-2、Physical Intelligence的pi系列)。但73.5%的成功率需要看具体的benchmark——如果是简单的Pick-and-Place任务,这个数字中规中矩;如果是涉及多步操作、长时序规划的复杂任务,则相当可观。目前缺乏公开的对比评测细节,需持续跟踪。
3.4 全链路数据处理Pipeline
京东发布的全链路覆盖「采→存→标→训→评→仿→测」七个环节:
存:AI数据湖平台,PB级吞吐,自动完成清洗、对齐、转换、预标注
标:AI算子矩阵贯穿数据去畸变、语义描述、深度重建等环节
训:JoyBuilder模型开发平台,支持"开箱即训"
仿:JoyBuilder仿真平台批量生成高逼真仿真数据,实现人→仿→真的泛化增广
评/测:闭环评测体系
官方数据:日处理数据量达数十万条,数据有效率95%,整体处理成本降低60%。
技术评估:95%的数据有效率是一个关键指标。众包采集最大的问题就是数据质量参差不齐——UMI社区经验表明,无实时质控的话,一周采集可能超半数是废数据。京东能达到95%有效率,要么质控算法确实强,要么对"有效"的定义比较宽松。这个数字需要后续的第三方评测来验证。
四、战略定位分析:京东在做什么生意?
4.1 不造机器人,做机器人行业的「基础设施」
京东的战略定位非常清晰:不做机器人本体,做具身智能时代的「超级供应链」。
这和京东过去20年做的事情逻辑完全一致——在零售领域,京东不生产商品,但构建了从仓储到配送的完整供应链基础设施。现在,京东试图在具身智能领域复制同样的模式:
供给侧:数据采集中心 + 云端算力 + 仿真平台 + 全球供应链(物料采购→组装→出海)
需求侧:京东零售全渠道(App + 门店 + Joybuy海外)+ 品牌营销资源 + 售后服务体系
4.2 与特斯拉的路线之争
这形成了一个有趣的产业对照:
特斯拉路线(垂直闭环):自研Optimus本体→在自有工厂部署→产生的数据只服务自家机器人→数据与硬件天然对齐→迭代效率极高→但生态封闭。
京东路线(开放平台):不做本体→为所有机器人公司提供数据+供应链+渠道→数据开放交易→解决行业共性问题→但面临数据跨本体复用难题。
从具身智能行业发展规律看,这两种路线各有不可替代的价值:
• 特斯拉的壁垒在于硬件-数据的深度耦合,数据效率行业最高
• 京东的壁垒在于产业生态的广度和厚度,规模效应一旦形成很难被复制
4.3 京东的「六连投」布局
2025年5月至8月,京东74天内完成6笔机器人领域投资,创下"一日3笔领投"的行业纪录:
投资对象包括:智元机器人、千寻智能、逐际动力、众擎机器人等,累计投资超50亿元,覆盖工业、消费、服务等多个细分赛道。
2026年1月,宇树科技全球首家线下门店在京东MALL北京双井店开业。
这不是财务投资,而是生态投资——通过投资绑定上游机器人企业,再通过数据+渠道+售后形成深度协同,最终构建一个以京东为枢纽的机器人产业生态。
五、关键问题与风险评估
5.1 众包数据质量能否保证?
这是60万人计划最核心的技术挑战。
乐观因素:
京东有成熟的大规模劳动力管理经验(物流体系数十万人的精细化管理);
自研JoyEgoCam降低了采集门槛;
全链路数据处理可自动筛除低质数据。
悲观因素:
具身数据的质量评估远比物流KPI复杂。
一个快递员佩戴JoyEgoCam拍到的分拣视频,和一个在实验室精心设计的Pick-and-Place实验数据,在训练价值上可能相差100倍。
海量低质数据不等于高质量训练集——「垃圾进、垃圾出」是机器学习的铁律。
5.2 Ego视频到机器人动作的迁移鸿沟
60万人计划采集的核心数据是人类第一视角视频。但机器人需要的是可执行的动作序列。
从Ego视频到机器人动作,存在多个技术鸿沟:
• 视角差异:人眼视角 vs 机器人摄像头视角
• 本体差异:人手5指21自由度 vs 机械臂/夹爪6-7自由度
• 动力学差异:人类动作的力学特性 vs 机器人执行器特性
• 隐式知识:人类操作中大量的力觉反馈、触觉信息在纯视觉数据中不可见
这些问题并非不可解——学术界有大量的Cross-embodiment Transfer研究(如Google的RT-X项目),但目前仍是开放性问题。
京东的JoyAI-RA的WAM预训练试图部分解决这个问题,但效果还需要更多证据。
5.3 数据合规与隐私风险
60万人在上百个真实场景中佩戴摄像头录制视频,不可避免地会拍到:
• 其他人的面部、行为
• 商业场所的运营信息
• 家庭环境的私密空间
京东声称采集"合法合规",但中国的数据保护法规(《个人信息保护法》《数据安全法》)对此类大规模影像采集的约束非常严格。特别是外部50万协作人员的管理——如何确保每一个采集场景都获得了所有被摄对象的知情同意?这是一个在组织层面极具挑战的问题。
5.4 数据交易平台的信任问题
京东推出的具身智能数据交易平台,首批开放2000小时高精标注数据集。但:
• 机器人企业是否愿意将自己的核心训练数据放到京东的平台上交易?
• 京东同时是数据的供给方和平台运营方,如何保证中立性?
• 数据定价机制如何设计——按小时?按任务类型?按标注精度?
这与京东电商平台面临的"既做裁判又做运动员"质疑本质相同。
5.5 投资回报周期的不确定性
京东零售2026年目标100亿机器人品牌销售额。
但目前消费级机器人市场仍处早期——宇树双井门店开业当日打出"销售额破十万"的标识,说明实际销售并不火爆。
从具身智能行业整体进度看,2026年仍是"基建之年",而非"收获之年"。
1000万小时数据采集、数据交易平台运营、JoyAI-RA模型迭代,这些都是重资产、长周期投入。
ROI的兑现可能需要3-5年甚至更久。
六、从具身智能技术发展角度的评价
6.1 值得肯定的方面
(1)正确识别了行业核心瓶颈。
数据确实是当前具身智能从demo到产品的最大障碍。京东不去做第N个机器人本体,而是切入数据基建,定位准确。
(2)混合数据路线比单一路线更务实。
不押注遥操作、不押注仿真、不押注UMI,而是用供应链逻辑整合所有路线的优势。从工程落地的角度看,这比学术界追求单一技术路线的极致更具产业价值。
(3)利用既有场景资源降低边际成本。
京东3600个仓库、上万门店本身就是真实物理交互的天然场域。将现有生产性劳动转化为数据采集的附加产出,不需要从零建设数据工厂,是一种结构性的成本优势。
(4)全链路闭环设计。
从采集硬件到数据处理到模型训练到交易平台,一条龙解决了中小机器人企业的数据痛点。
6.2 需要持续观察的方面
(1)Ego视频的真实训练价值。
1000万小时Ego视频 ≠ 1000万小时有效训练数据。
人类日常操作视频到底能为机器人模型贡献多少可迁移的知识?学术界对此仍有争议。
(2)跨本体数据复用的技术突破。
这是60万人计划能否真正改变行业的关键。
如果采集到的数据只能服务于特定品牌的特定型号,那么"开放平台"的价值就大打折扣。
(3)JoyAI-RA的真实竞争力。
73.5%真机成功率的claim需要在标准化benchmark上得到第三方验证。
Physical Intelligence的pi0、Google DeepMind的RT系列都在快速迭代,具身大模型的竞争窗口期非常短。
(4)生态黏性的建立。
京东的"超级供应链"能否真正让机器人企业离不开?
还是仅仅是一个锦上添花的渠道?
这取决于数据质量、模型效果和商业模式是否真正形成正向飞轮。
七、总结
京东60万人计划的本质,是一家拥有庞大物理基础设施的供应链公司,试图将自己的线下资产转化为具身智能时代的数据基建优势。
从技术路线看:混合数据金字塔 + 全链路处理Pipeline + WAM+RL双阶段模型,方向正确、架构合理,但关键技术(Ego-to-Robot Transfer、跨本体泛化)仍是开放问题。
从商业逻辑看:不造机器人、做基础设施,避开了与宇树/智元/特斯拉的正面竞争,切入了行业真正的痛点。但"既做平台又做数据供给方"的双重角色存在潜在利益冲突。
从行业影响看:如果京东真的能在两年内积累1000万小时高质量数据并建立开放的数据流通标准,这将从根本上改变具身智能行业的数据格局——从"每家从零采集"变为"标准化数据市场"。
最终判断:京东60万人计划是一个方向正确、力度足够、但执行挑战巨大的产业基建工程。它的成败不取决于能否采集到1000万小时数据——这只是一个量的指标。真正的考验在于:这些数据能否被高效转化为机器人可用的训练素材,能否真正帮助机器人从实验室走进千家万户。
2026年是具身智能的「数据基建之年」,京东已经抢先落子。
接下来的12-24个月,将检验这颗棋子是否真正落在了关键位置。


