推广 热搜: 采购方式  甲带  滤芯  气动隔膜泵  减速机  减速机型号  履带  带式称重给煤机  链式给煤机  无级变速机 

华强创投研究(20):具身智能大模型——机器人产业的价值锚点与破局关键

   日期:2026-01-08 02:09:36     来源:网络整理    作者:本站编辑    评论:0    
华强创投研究(20):具身智能大模型——机器人产业的价值锚点与破局关键

正文约15000字,阅读需36分钟

核心观点

1、具身智能大模型是全新的技术范式,而非大语言模型的延伸。其核心使命在于构建“感知-决策-执行”的物理闭环,使机器人从执行预设代码的工具跃升为能够理解环境并自主完成复杂任务的智能体。因此,它正成为重构产业价值链、定义下一代智能等级的核心锚点。

2、数据飞轮构筑核心壁垒,混合范式成为破局关键。产业突破遵循数据驱动的Scaling Law,但物理交互数据稀缺且获取成本高昂。突破依赖于构建“仿真预训练+真机校准+视频先验”的混合范式,以及支撑该范式的高保真仿真平台与高效动捕系统等基础设施。

3、技术架构向“VLA+世界模型”融合演进,系统集成能力决定长期胜负。VLA模型虽为理想路径,但在长程规划与物理推理上存在局限。融入世界模型作为内部模拟器,为模型提供预测与推理能力,是技术演进的主线。未来具身大模型终极形态也并非单一模型,而是“认知端到端化、内部模拟化、控制高效化”的融合架构,竞争焦点将从单点算法转向复杂异构系统。

4、商业化路径分化,垂直场景闭环能力是当前阶段的确定性机会。在通用智能远期目标的指引下,产业呈现双重路径。绝大多数企业聚焦工业制造、特种作业等垂直场景,以软硬一体方式构建“数据-模型-本体”闭环,快速验证技术效用并实现商业回报,其壁垒在于场景Know-How与专属数据资产;少数领军者则致力于打造跨平台的基础模型与生态。前者是推动产业形成初期商业正循环的主力。

//
正文
一、产业概况:物理世界的交互智能
当前,机器人产业正经历从专用自动化迈向通用智能化的历史性拐点。这场变革的核心驱动力并非传统机械工程的渐进式改进,而是源于人工智能的范式迁移,即具身智能的崛起。其核心在于为智能体赋予能够感知、思考并行动的大脑,使其能够在开放、动态且充满不确定性的真实环境中,完成从“拿起杯子”到“制作一杯咖啡”一系列看似简单、实则蕴含丰富物理常识与因果推理的任务。它是破解传统机器人控制瓶颈、迈向通用具身智能的关键路径。
01

核心定义与战略地位

具身智能大脑技术以具身智能大模型为核心。这一范式根植于物理世界的实时交互闭环之中。其训练数据并非静态图文,而是包含视觉、力觉、触觉等多模态信息的动态交互序列;核心任务不是生成文本,而是输出符合物理定律、能达成任务目标且安全可行的动作轨迹。因此,具身智能大模型是一个独立且全新的技术范式,是连接数字智能与物理执行的桥梁。
具身大模型的价值在于系统性地重构机器人产业的价值链条。过去,机器人产业的进步主要由硬件创新驱动。精密减速器、高性能伺服电机、新型材料等构成机器人的躯体,使其在结构化、重复性的工业流水线上创造价值。这类机器人本质是预设程序的工具,其行为逻辑依赖人工编排的指令库,泛化能力低下。即便当前人形机器人能完成跑、跳等复杂动作,但普遍无法理解任务内涵,也无法应对非预期的环境变化。其瓶颈在于缺乏环境感知、自主决策与任务泛化能力。要让机器人走入柔性产线、家庭服务等复杂场景,突破口必须从追求躯体运动的极限性能,转向构建以多模态感知、认知决策和自主规划行动为核心的具身智能大模型。
具身智能大模型的关键在于构建“感知-决策-执行”闭环依托大模型强大的多模态理解与生成能力,机器人可以实时融合视觉、语言、触觉等信息,形成对场景的深度认知,并基于此进行推理和规划,最终生成适应动态变化的精细动作序列。这种闭环是实现从标准化程序到开放任务跃迁的基础,也使得具身大模型成为定义下一代机器人智能等级与商业价值的核心锚点。未来产业的领导者必将是能够理解物理智能并率先在大脑层面建立优势的企业。
02

主要认知偏差与核心误区

在产业爆发的前夜,对根本性问题的认知差异将导致截然不同的战略选择与资源投入。穿透市场喧嚣,厘清根本性认知误区,是避免投资偏离航道、精准锁定价值枢纽的前提。
  • 误区1:具身大模型是大语言模型在机器人领域的应用分
当前市场的一个普遍误解即将ChatGPT、Sora等模型接上摄像头和机械臂就是具身智能机器人。这种观点混淆了两种截然不同的模型范式。以ChatGPT为代表的大语言模型(LLM)是数字世界的基础模型。其智能建立在静态文本的统计关联之上;其核心目标是语言的生成与理解,擅长处理语言、知识与逻辑推理,但完全脱离物理实体;其系统架构为开环,遵循“输入-输出”的一次性生成模式,无需与物理环境进行交互。
与之相对,具身智能大模型的目标是成为物理世界的基础模型。其核心使命是内化物理世界的因果规律,通过传感器与执行器和环境进行安全有效的实时交互。这决定了其训练数据必须是包含力、触觉等多模态反馈的动态交互序列;其目标是生成物理空间中的合理动作;其系统架构是闭环的,需要实时接收环境反馈并动态调整动作,形成“感知-决策-执行-反馈”的持续循环。因此,二者在数据范式、训练目标及系统架构上存在根本差异。
  • 误区2:智能驾驶模型经过调整即可复用于具身智能机器人
这一认知偏差源于低估具身智能所面临的环境复杂度与任务泛化要求。智能驾驶本质是在高度结构化道路网络中的受限领域移动与避障问题,任务目标相对单一,即安全高效的点对点位移,交通规则为其决策提供明确的边界。因此,其模型目标是在高速动态环境中精准预测并避免与物体发生非预期接触,输入主要依赖车规级摄像头、激光雷达等,输出则集中于车辆的纵向与横向控制。
具身智能机器人则需要解决开放世界的通用交互问题。与智能驾驶的避碰逻辑根本不同,机器人更关注在低速、近身范围内的灵巧性、交互安全与任务泛化能力。其工作场景从家庭、工厂到公共场所,是非结构化且动态变化的;任务范围从导航、灵巧操作到复杂的人机协作,具有极大的多样性与不确定性。这就要求模型具备多模态理解与生成能力,输入需融合视觉、语言、力触觉等更丰富的信号,输出则需同时规划全身移动轨迹、机械臂运动乃至精细的指尖操作。其对物理交互的精细度、实时性以及多任务耦合复杂度的要求,远超自动驾驶。马斯克曾表示Optimus人形机器人的训练数据需求至少是汽车所需的10倍。
  • 误区3:产业瓶颈在于数据规模不足,加大投入即可突破
这一观点将产业瓶颈简化为数据规模问题,未能触及“数据-模型”范式错配这一根本性挑战。具身智能本质是学习物理世界中的动态因果规律,其训练数据需包含环境感知、物理交互、运动控制、任务执行等多源异构信息。而现有数据形态普遍是静态图像与视频,本质是对世界的被动观察,缺乏本体自身动作引发的反馈信息。盲目增加此类数据规模,非但无法提升模型性能,反而可能强化错误的统计关联,压制因果推理能力的发展。突破的关键在于高质量物理交互数据,这些数据不存在现成来源,需要专门采集或合成。因此,突破数据采集与生成瓶颈、构建高效的数据基础设施将成为产业链中具极高战略价值和投资潜力的关键节点。
  • 区4:片面强调“软件定义硬件”或“硬件决定论”
具身智能产业的真实图景是软硬件“双向约束、动态适配”的共生演进。硬件为算法能力设定了物理边界,如灵巧手自由度决定算法所规划的抓取姿态的丰富程度。而卓越的算法能够挖掘并释放硬件的潜能。例如,根据东京都市大学研究,通过预测控制与误差补偿算法,一只二指机械手执行不规则形状物体的抓取和移动成功率可从基础水平的63%提升至93%。更为关键的是,软件的前沿需求会反推硬件创新。当算法需要毫秒级的多模态传感器数据融合时,传统通用计算架构成为瓶颈,从而催生将感知、决策与控制计算集成的机器人专用芯片。因此,具身智能产业既非由硬件单向决定,也非软件独立定义,而是躯体与大脑在相互约束与牵引中协同演化的结果。这种深度协同关系决定单纯押注硬件或软件都难以构建长期壁垒,而具备软硬一体化设计能力、能在特定场景中实现快速闭环的团队更有可能在产业初期脱颖而出。
二、产业现状:在数据困境与技术分歧中爬坡
01

产业链:机器人价值重构与关键环节

具身大模型产业的核心价值链条紧密围绕数据生产、模型训练与智能体适配三个关键环节展开。上游数据基础设施决定模型训练的效能与成本,中游模型架构定义智能的核心形态,而下游智能体则最终承载并验证其商业价值。理解这一链条的内在逻辑与瓶颈是识别投资机会的关键。
  • 上游:数据基础设施——模型训练的基石
高质量、规模化数据的供给是驱动具身大模型部署的首要前提。当前产业普遍采用真机数据、仿真数据与互联网视频数据相结合的混合范式,以在成本、精度与场景适配性之间寻求最优解,三类数据构成了差异化且互补的供给体系。
  • (1)互联网视频数据
互联网视频数据是最容易大规模获取的数据形式,通常是从公开网络爬取的海量现实世界动态影像,涵盖人类日常活动、物体交互等丰富场景。其核心价值在于以极低成本为模型注入丰富的场景先验知识与常识理解,例如物体的常见空间位置、社会性交互习惯等规律。然而,其本质是被动观测数据,缺失动作与环境反馈间的因果关联,且高质量标注成本高昂(人工标注动作意图、物体关系、力反馈推测等信息),因此主要作为增强模型对世界认知的补充预训练材料
  • (2)仿真数据
仿真数据质量较高且成本较低,具备高性价比。仿真数据是在高保真虚拟环境中,通过渲染虚拟场景并生成和控制虚拟机器人执行任务而采集的交互数据。其优势在于规模化能力与生成效率,无需实体硬件即可不间断地生成海量、多样且标注完善的交互序列,并能灵活切换光照、布局乃至物理参数以覆盖现实世界中难以采集的长尾与极端场景,从而扩展数据多样性。然而,其根本挑战在于虚实差距(Sim2Real Gap,即仿真物理引擎难以完全模拟现实世界的摩擦、形变、材料特性等非线性因素,导致在虚拟环境训练的模型迁移至真实世界时,性能往往出现衰减。相关测试显示,纯仿真训练机器人的操作误差会随任务复杂度提升而呈指数级放大,当涉及5步以上连续操作时,成功率骤降至20%以下。因此,仿真数据本质上是实现快速冷启动的预训练和强化学习工具,无法单独完成模型能力的最终闭环。
仿真数据依赖于仿真平台进行数据增强和扩展。当前仿真平台已超越单一工具范畴,演变为整合场景生成(Gen)与物理模拟(Sim)的完整技术栈。模拟层致力于实现高保真的物理模拟与图形渲染。以英伟达Isaac Sim、Facebook Habitat为代表的平台能够支持从双足人形到多轴机械臂等多种形态的物理模拟,并具备高精度物理效果、逼真渲染与多传感器模拟。核心瓶颈在于虚拟场景的自动化生成,即如何利用AIGC生成合理且多样化的虚拟场景,以突破数据多样性的限制。具备强大模拟与生成能力的仿真平台,正成为加速产业数据迭代的核心枢纽,是支撑具身大模型研发的综合性基础设施
  • (3)真机数据
真机数据是具身大模型从虚拟训练通向现实部署不可替代的校准依据,由真人穿戴动捕设备,通过遥操作控制实体机器人,精准捕捉在真实世界中的动作轨迹数据。此类数据通常包括两类:一是环境感知数据,通过RGB摄像头、激光雷达、力触觉传感器等获取外部场景与对象的静态及动态多模态信息,构成理解复杂环境的基础;二是本体数据,涵盖关节运动、本体姿态、电机扭矩、交互力等反映自身状态与动力学特性的参数,是实现精准控制与模型优化的核心。其核心价值在于提供仿真环境无法精确复现的真实物理误差信号,数据流天然构成“感知-决策-执行-反馈”物理因果闭环,使得基于此训练的模型能够直接适配真实环境,有效规避Sim2Real Gap难题。
然而,真机数据面临成本、规模与通用性三重核心瓶颈。首先,采集和标注成本极为高昂,不仅需要投入昂贵的机器人本体与动捕采集设备,更涉及巨大的人力与时间成本。谷歌RT-1数据集耗资千万美元,动用13台机器人、16名工程师,历时17个月仅完成13万条数据的采集。产业调研亦显示,双足机器人每小时仅能采集3–4条有效数据,单条采集成本约为20元。即便采用穿戴式动捕设备,单台机器人日均有效交互数据仅数百条,若要积累百万级数据,需投入百台级机器人持续运行数月。其次,规模化生产极其困难。物理世界的复杂性与长尾场景难以穷尽,要实现大规模覆盖需部署庞大机器人集群长期运行,经济可行性低。此外,数据与本体硬件结构强绑定。所采集的数据深度耦合特定机器人的构型、传感器配置与动力学特性,一旦硬件迭代升级,亦或是硬件方案变更,原有数据集的效用可能大幅衰减甚至失效,严重阻碍数据的复用。因此,真机数据虽是模型的校准标准,但难以作为规模化的数据来源。
高精度动作捕捉设备是真机数据采集的关键基础设施,其中光学动捕系统以其高精度成为主流方案之一。该系统通过搭建光学动捕棚,由环绕布置的多台高速红外摄像机追踪附着在关键关节处的反光或发光标记点,依据三角测量原理实现亚毫米级的三维姿态重建。根据标记点工作方式,可分为被动式与主动式:被动式依赖相机发出的红外光经反光标记球反射后成像,标记点无须供电,系统稳定且标记点成本低;主动式由标记点主动发射编码红外光,更易识别,但标记点需供电,系统构成复杂。

惯性动捕系统则是灵活便捷的数据采集方案。其通过穿戴于身的IMU传感器(加速度计、陀螺仪、磁力计等传感器),捕捉各关节的加速度、角速度与方位角信息,再经算法解算出关节姿态角和空间运动轨迹

光学和惯性各有侧重,适配不同采集场景。光学动捕是精度最高的采集方案,无累积误差、抗干扰能力强,适合高精度建模场景。其劣势在于必须搭建专用的动捕棚,且受限于相机视场,易因标记点被遮挡导致数据中断。与之相比,惯性动捕的优势在于部署的灵活性,无需搭建动捕棚,不受环境光线与空间限制,便携性强,适用于户外及移动采集场景;主要缺陷在于传感器存在数据漂移,长时间运行的累积误差会影响定位精度,且易受金属磁场环境干扰。成本方面,光学系统的设备与场地成本高昂,单工位投入较高,国内方案约10-30万元,海外高端产品价格可达其3-4倍惯性方案成本弹性大,价格区间从数万元到十余万元不等,取决于传感器精度、通道数量及配套软件性能,典型产品如诺亦腾PN3 Pro,售价约为4.58万元。因此,高精度建模与校准多选用光学动捕,而对灵活性要求高、精度需求中等的场景,惯性动捕则成为更具性价比的选择
  • 中游:具身智能大模型——具身智能核心引擎
具身大模型是衔接硬件与场景的智能中枢,其核心任务是将原始感知数据转化为精准的物理动作。一个根本性思路是借鉴人类的“大脑-小脑-躯体”架构作为设计蓝图。
  • 大脑(认知层)是指挥中枢,通常由GPT-4o为代表的VLM大模型担当,负责解读人类指令并解析为明确目标。这一层决定了智能上限和交互自然度。
  • 小脑(决策层)充当调度中心,负责将大脑输出的抽象目标,拆解为逻辑严谨、物理可执行的子任务序列。为实现快速可靠的规划,此层通常采用专用AI模型或基于规则的调度器。
  • 肢体(执行层)是最终的执行单元,负责将规划转化为关节与电机控制指令,普遍采用模型预测控制(MPC)、全身控制(WBC)或强化学习训练出的专用控制策略。它对稳定性和安全性要求极高,任何微小的控制偏差都可能导致任务失败。
基于这一核心框架的不同实现方式,产业内主要演化出三条技术路径:
  • (1)分层架构
分层模型是当前工程落地的主流选择。它严格遵循“大脑-小脑-躯体”的界限,采用异构技术栈组合。采用参数庞大、智能卓越但推理较慢的大模型担任大脑,用轻量、快速的专用技术作为小脑和躯体,从而在系统层面平衡智能与效能。例如,Figure 01采用GPT-4o作为大脑,小脑和躯体则采用自研的高速响应系统。这种路径的优势在于模块解耦,各层级可独立优化与升级,并能充分利用现有成熟的专用模型,且行为可解释性高。其挑战在于模块间接口设计复杂,可能产生信息损耗
  • (2)端到端架构
端到端模型是头部厂商重点攻坚的前沿方向,旨在用单一模型实现从感知到动作的映射,省略中间的任务分解和规划步骤,最大化减少信息损失。端到端理论上能通过数据驱动达到全局最优,实现终极的任务泛化能力。谷歌RT-2模型和自变量WALL-A是典型代表。然而,该路径高度依赖大规模、高质量、多场景的动作数据集,且模型行为如同“黑箱”难以验证和控制,在复杂动态环境中的安全性保障是一大挑战。
  • (3)类脑架构
类脑模型是一条旨在颠覆底层传统计算范式的长期路径。它不追求用庞大的数据驱动性能,而是借鉴生物神经系统原理,采用脉冲神经网络等模型,构建动态推理引擎,追求在超低功耗下实现高鲁棒性的实时反应与自适应学习。该路径的优势在于理论上的超高能效比和应对不确定性的本能式反应能力,适合对功耗和延迟要求严苛的复杂动态环境。但其工程化与算法生态尚不成熟,训练难度大,在高阶认知任务上能力较弱,因此被视为一项重要的远期技术储备。
  • 下游:智能体——跨形态智能泛化挑战
具身智能的最终价值通过物理形态多样化的智能体得以实现和验证。当前智能体形态高度多元化,涵盖人形、轮式、四足、灵巧手及特种机器人等。这背后并非简单的硬件差异,而是截然不同的运动学结构、动力学模型与环境交互范式,对模型的跨平台泛化能力构成了根本性挑战。因此,产业的核心命题在于构建能够高效适配千差万别躯体的通用大模型,而非仅为特定形态训练的专用模型。
这一挑战推动产业向“软硬件解耦”的生态模式演进。其核心不仅依赖于模型架构本身的进步,更在于构建标准化的硬件抽象层与机器人中间件,将具体硬件差异封装为统一的控制接口。唯有如此,具身大模型才能跨越硬件平台进行迁移与部署,真正释放其规模化应用的潜力。
02

技术能力层级:定义机器人市场空间

具身智能产业遵循一套被广泛引用的自主性等级体系(L0-L5),用以标定技术发展阶段与商业化前景。产业当前正处于L1(辅助控制)向L2(具备感知的条件自主)突破的关键爬坡期,核心挑战从在特定环境下完成单一预设动作,转向在开放环境实现复杂任务可靠执行与泛化,例如在陌生环境中完成一连串识别、抓取、操作和归位的组合任务。
准确率是衡量跨越能力等级的核心量化标尺。判断大模型技术是否达到某一等级依靠其在对应任务复杂度下的长期成功率。例如,Physical Intelligence的π0.5模型在家庭真实环境的长程任务中实现超过60%的准确率,标志其能力正从L1的单一特定任务执行,向L2的多任务自主规划迈进,印证数据与算法驱动下自主能力正在发生质变。
人形机器人的市场空间与具身大模型的技术等级呈现同步放大关系。根据预测,当具身智能于2028年左右达到L2级时,本体市场将在特定场景初步打开,市场规模约为数十亿元;随着技术向L3(场景泛化)、L4(有限范围通用)迈进,工业与服务场景将实现规模化落地,推动市场规模在2035-2045年间跃升至千亿乃至万亿元级别;面向L5(完全通用自主)的远期未来,人形机器人有望成为基础生产力工具,催生出一个十万亿级的庞大产业。因此,具身大模型在基础能力上的每一次突破都在为未来释放巨大的商业价值。
03

数据驱动范式:构建数据飞轮

具身大模型的突破遵循以数据为核心的发展定律。当前L1级模型已需超1万小时的数据支撑训练。根据清华大学相关测算,要达到人眼级别的三维感知能力并理解上千类物体,则需构建10亿量级的数据集。与传统大模型直接利用现成的海量图文数据不同,具身大模型面临根本性数据稀缺。其性能跃迁不仅取决于数据规模,更取决于能否为不同训练阶段持续供给结构匹配、质量达标的混合数据。当前交互数据从数据采集、标注、仿真保真度等环节均存在瓶颈,且受成本与安全伦理等多重约束。因此,构建一套与模型能力动态耦合的数据供给体系成为提升数据效能的关键。
数据效能需通过Scaling Law三阶段的差异化策略精准释放。随着AI技术的发展,计算资源与模型性能的关系在预训练、后训练(微调)和推理三个阶段已分化出不同的法则,这直接映射成截然不同的数据需求。在预训练阶段,目标是建立基础动作技能与泛化能力,其性能与数据规模强相关。此阶段需消耗海量、多样但成本可控的仿真数据,并辅以互联网视频数据注入先验常识进入微调阶段,目标是将通用能力对齐到具体物理规则与任务,性能提升依赖数据质量。此时,高精度、小批量、富含真实物理反馈的真机数据成为关键,用于修正仿真偏差,实现虚实校准。在推理部署阶段模型在真实环境中运行产生的在线交互数据(尤其是失败案例)则成为持续优化与安全迭代的新燃料,既可反哺仿真参数优化,又可作为新一轮微调的数据源。三个阶段构成驱动模型能力自我强化的数据飞轮。
驱动数据飞轮高效运转的核心是“仿真-真机-视频”三位一体的混合数据范式,其本质是成本、质量与规模间寻求最优解。仿真数据以其规模化能力与低成本,构成预训练阶段的主力。其价值在于覆盖技能广度与长尾场景,难点则在于物理引擎的逼真度与场景生成效率。真机数据则扮演不可替代的校准与验证角色,其核心价值并非规模供给,而是提供仿真无法复现的真实物理误差信号,专门用于提升模型精度与部署可靠性,以弥合虚实差距。而互联网视频数据作为廉价的常识与先验知识来源,有效增强模型对物体、场景与人类意图的语义理解。当前特斯拉Optimus模型训练便从早期的纯真机数据转向融入网络视频,以强化模型认知基础。
为支撑海量数据需求,构建标准化、可扩展的数据训练场已成为行业共识。特斯拉、帕西尼、国家级机器人创新中心在内的头部企业与机构正加速搭建“仿真-真机”深度融合训练场。其通过部署并行机器人集群与高保真仿真系统,系统化数据生产流程,构成具身智能训练体系的关键底座。从行业实践来看,仿真/视频数据与真机数据普遍按9:1至7:3的比例进行配置,以在确保性能的同时控制可行性与成本。
目前,我国训练场建设多由地方政府主导,形成“以建设带动本体订单、以数据赋能模型”的模式。例如,湖北人形机器人创新中心与极佳视界合作打造全球首个以世界模型为中心的虚实结合数据工厂。这类规模化、标准化的数据生产需求,为上游的高精度动捕系统、自动化标注工具及高保真仿真平台等环节提供了明确的增长动能,使之从辅助工具跃升为驱动产业进化的核心基础设施。
04

主流技术路径:从分层协同到一体化演进

当前,具身大模型产业呈现以分层端到端模型为主流、统一端到端模型为前沿探索、类脑模型为长远愿景的多元格局,代表从工程实现、能力突破到范式颠覆的不同层级探索。企业的路径选择本质是在可控性、泛化能力、计算效率、数据需求和商业化节奏之间寻求平衡。
分层模型基于专业分工的模块化集成。它不强行用单一模型解决所有问题,而是将基础大模型(LLM/VLM)、决策模型(基于RL的自适应规划器)、操作模型(MPC/WBC等控制算法)等异构技术栈通过接口组合。该路径下,各模块可独立迭代优化,极大降低全系统研发与调试的复杂度,且数据需求相对较低,但模块间信息传递可能限制其在开放任务中的泛化能力。
端到端模型是实现从感知到执行一体化跃迁的前沿探索。其核心在于摒弃预设的中间模块,让单个模型以低延迟从海量数据中学习从原始感知到物理动作的最优映射策略,以追求更强的任务适应性。其技术演进正从VLM向VLA跨越。
作为理想路径,统一端到端VLA模型致力于打通“看到-思考-做到”的闭环。其目标是让模型基于多模态感知直接输出控制指令(如关节角度、末端轨迹)。以谷歌RT-2模型为例,基于海量数据进行训练,可将抽象知识直接转化为机器人抓取动作的涌现能力,提升零样本任务泛化性能。这一演进不仅是模态的增加,更是通过统一Transformer骨干网络进行多模态表征对齐与联合训练,构建“感知-决策-执行”端到端通路,赋予模型应对未知任务的更强潜力与更简洁的响应链路。
然而,VLA的跃迁面临根本性约束。一方面,其性能依赖海量高质量交互数据,采集与标注成本高昂。另一方面,模型决策过程如同黑箱,难以验证和干预,存在安全风险。此外,自回归动作生成方式可能导致长序列任务中的误差累积,影响稳定性。
分层端到端作为一种平衡性能和安全的混合架构,成为当前工程落地的主流选择。其在训练时采用端到端框架以学习更优的全局策略,但在系统设计与部署时,仍保留清晰的功能分层。这种架构旨在兼顾端到端模型的泛化潜力与分层系统的可靠性、可解释性。以英伟达GR00T为代表,通过构建“慢思考”与“快执行”相结合的双系统,平衡复杂推理的智能与实时控制的安全高效,反映产业在理想架构与现实约束间的务实探索。
与前述基于数据驱动的路径不同,类脑架构从第一性原理出发,重构底层计算范式。它不依赖海量数据训练,而是借鉴生物神经系统结构,将物理规律与时空关系编码为网络固有特性,其智能源于“结构先验”。这意味着模型的常识与反应模式由模仿生物机制的先天结构所主导。因此,它模拟的是生物体应对未知环境的本能式快速反应能力
这一范式有望解决传统AI的关键瓶颈。一方面,其计算方式类似于大脑神经元,仅在接收到足够强的输入脉冲时才激活,系统静默时功耗极低。另一方面,其采用的脉冲神经网络等模型擅长处理连续变化的动态视觉信息和长序列信号,能自然地对视频、力控序列等信息进行编码与推理,为实时理解瞬息万变的环境提供更匹配的计算基础。此外,得益于其动态网络,该路径在应对数据噪声和输入缺失时具备更强的鲁棒性,可在开放未知环境中通过调整连接权重进行自主学习和快速自适应
三、产业趋势:能力跃迁与系统重构
当前,具身大模型产业正经历一场由技术范式迁移驱动的产业变革,不仅在于模型单点能力的提升,更在于其系统性地重构机器人的价值链条。以下四大趋势共同定义了产业未来的演进方向与价值高地:
01

世界模型作为推理模块,定义统价值

世界模型的兴起源于VLA模型在物理推理与长程规划上的能力短板。尽管VLA模型可实现端到端映射,但其决策本质仍是基于历史数据的统计归纳,缺乏对物理世界因果规律的理解,导致其在复杂的多步任务中成功率难以保障。为突破此瓶颈,引入世界模型作为核心推理机制已成为明确的进化方向。世界模型作为智能体内部的动态环境模拟器,旨在构建“感知-建模-预测-决策”闭环,赋予本体预测未来环境变化与推理能力。
从技术路径来看,世界模型的技术发展呈现三大流派。一是以Sora为代表的生成式视频流派,依托Transformer或Diffusion架构,生成逼真的未来视频帧序列,其核心在于高保真仿真数据的生产引擎;二是以JEPA为代表的抽象表征预测流派,不追求像素级精度还原,而是学习环境状态的抽象表征及其动态变化规律,更注重推理效率与泛化能力;三是以李飞飞三维空间智能为核心的几何物理流派,强调从2D视觉升维至3D空间理解,构建智能体交互所需的底层几何与物理常识。
世界模型与VLA的融合催生新一代认知架构。以WorldVLA为代表,通过将动作生成与环境预测置于同一训练框架,使模型在输出控制指令时能内在地模拟其物理后果。具体来说,由VLA提供即时感知与指令理解,世界模型赋予物理常识与前瞻性推理能力,使机器人在执行“推开房门”前便预判门后的可能状况。这种结合有效缓解纯VLA模型在长程规划中因误差累积导致的性能衰退,显著提升任务成功率和安全性。因此,世界模型是下一代具身智能系统中不可或缺的推理与规划核心,其与VLA的融合能力将定义系统的智能上限。
02

仿真与世界模型重塑数据基础设施核心赛道

数据范式正从规模堆砌转向效能最优。具身大模型训练范式已然形成以海量仿真数据预训练、以稀缺真机数据校准、以互联网视频数据注入先验的混合范式。其中,仿真数据凭借其规模化能力和对极端场景的覆盖,承担约80%的基础技能训练负荷;而真机数据则负责提供真实物理误差信号,以弥合虚实差距。

世界模型正演变为强大的数据工厂以英伟达Cosmos为例,其世界模型能自动生成符合物理规律的高保真合成交互数据。这不仅提升合成数据的真实性与多样性,更开创了一种可扩展的数据供给模式,即通过AI生成逼近现实的数据,极大缓解真实数据采集的瓶颈。

此外,数据模态的持续扩展是提升模型物理交互能力的必然方向。当前VLA模型覆盖视、听、动三大模态,但距离类人的灵巧操作,仍缺失关键的触觉、力觉等物理反馈信息。以VTLA为例的前沿研究表明,触觉信息能显著提升模型对物体滑移、质地等属性的判断,是实现柔性抓取与精细操作的核心。因此,多模态融合能力正成为定义模型性能上限的关键,并催生对传感器与融合算法的需求。

03

从模型竞争升维至系统集成能力的终极比拼

通用具身智能的最终形态并非单一模型,而是一个复杂协同的异构系统。单纯依赖任何一种模型架构均会遇到瓶颈,未来架构将走向“认知端到端+内部模拟+控制高效化”深度融合架构。具体而言,系统顶层采用VLA等多模态模型负责高层指令理解与任务规划;世界模型作为内部数字孪生模拟器,为每一步决策提供基于物理仿真的动态推演;而在底层控制层面则可能引入高能效的类脑模型处理实时控制,以实现毫秒级、高能效的本能反应。
该融合架构的本质是让思考、推理与反射三种能力在同一个系统内高效协同。它既非简单的模块拼接,也非追求一个全能的单一模型,而是通过精心设计的架构,让不同类型的模型在最适合的环节发挥优势,并通过世界模型这一内部模拟和推演平台实现信息交换与一致性校验。因此,产业的竞争正从拥有最佳单点模型的算法竞赛,转向定义并实现整个复杂异构系统架构的工程能力比拼。这不仅是技术挑战,更是定义未来产业格局的核心壁垒。
04

商业化路径分化:以场景闭环实现早期破局

面对技术挑战与商业现实,企业路径分化。绝大多数企业选择聚焦垂直场景,以实现快速商业闭环为核心目标,其本质是以世界模型为基座,构建场景数据闭环。受限于场景复杂度、技术鲁棒性及投资回报周期的约束,垂直深耕高端制造、仓储物流、特种作业(如水下巡检)等高价值场景成为最优解。此类企业的核心壁垒并非追求扩大模型参数规模,而在于构建“感知-预测-推理-决策-执行-反馈”闭环,形成针对特定场景的Know-How,最终实现商业落地与模型效能相互强化的正反馈循环。他们构成产业初期规模化落地的主力军,其价值侧重于可验证的场景渗透数据闭环能力。少数具备全栈技术与雄厚生态资源的领军者则致力于打造适配多种本体型态、理解多样任务的通用基础模型与开放生态。其竞争维度已扩展至数据生态、开发者社区以及产业链联盟,旨在掌握产业底层的生态控制权。这两条路径并非完全割裂,成功实现垂直场景闭环的企业,其积累的专用数据与工程经验将成为其向上延伸的重要筹码;而通用平台的演进将为垂直应用提供更强大的基础能力。
整体来看,产业机遇锚定于三大价值环节:构建融合世界模型的认知引擎、提供高效数据生产的基础设施、在垂直场景实现数据闭环与商业破局。三条主线共同构成驱动具身智能从技术突破走向规模商业化的核心引擎。
四、竞争格局与典型企业分析
01

竞争格局总览:双主线价值驱

当前具身智能产业的竞争已演变为贯穿“数据—模型—本体”的全链条闭环能力比拼。在数据稀缺和技术融合的驱动下,不同类型的玩家依据各自禀赋,选择差异化的路径,形成分层竞争、生态合作的复杂格局。
  • (1)数据基础设施:效率赋能之争,孕育卖水人机遇
此环节的竞争正从单一工具的性能比拼升级为覆盖数据生产全流程的平台化能力较。在真机数据采集中,竞争集中在高精度动捕设备,呈现国际品牌Vicon、OptiTrack主导高端市场,主要服务于影视制作和科研机构。国内厂商提供的系统在精度上通常略低于海外厂商,但具有成本优势。以青瞳视觉为代表的国内厂商正以双轨战略破局,其“鲲鹏”系列冲击0.02mm的超高精度市场,而“普罗米修斯”等万元级方案满足更广泛的商业化需求。
合成数据环节的竞争分化为两大技术路径:基于物理规则的高保真仿真平台与基于学习的生成式世界模型。前者追求对物理规律的精确模拟,后者则强调自动化生成与场景想象力。在该领域,英伟达凭借其Omniverse平台(整合Isaac Sim仿真+Cosmos世界模型),构建了从GPU、物理引擎到开发工具的完整生态。国内厂商则多点突围,以光轮智能、智元机器人、松应科技为代表,深耕物理仿真平台,致力于打造国产化高精度仿真工具,缩小虚实差距。极佳视界、商汤科技、北京智源研究院等则卡位世界模型新赛道,已在具身智能、自动驾驶等领域建立早期客户案例,进入商业化落地阶段。
得益于数据基础设施的持续赋能,产业已能够构建如OpenX-Embodiment、AgiBot World等高质量的超大规模数据集。这些数据集普遍采用“仿真预训练+真机校准”的混合模式,既借助真实数据确保物理规律对齐,又利用合成数据高效扩展规模、覆盖长尾场景,从而提炼出跨平台的通用技能。
  • (2)具身大模型:软硬一体与生态平台双轨引领
模型层是产业价值凝聚的核心。从技术演进来看,“VLA+世界模型”成为主流架构方向,旨在为机器人赋予物理常识与长程规划能力,以突破复杂任务的泛化瓶颈。
在商业路径方面,具身大模型企业普遍将软硬一体化作为核心战略。通过自研模型与本体的深度协同,在工业制造、仓储物流等场景中率先实现复杂长程任务的成功率与稳定性突破,并以此构建场景数据闭环壁垒。因此,获取行业标杆客户的联合验证与项目落地是其实现商业闭环的关键里程碑。而英伟达、DeepMind、智元则专注于提供跨平台的基础模型或开发工具,其商业进展体现在开发者生态的构建与合作伙伴的数量
02

穿概念泡沫,甄别模型厂商长期价值

评估具身大模型厂商的核心能力及长期成长性需聚焦四个关键维度。首先,技术路径的核心在于模型架构的布局及其在长程规划、精细操作等关键任务的性能。其次,数据体系的效能取决于其采用的数据范式与构建数据飞轮的能力。此外,路线选择决定其发展边界,软硬一体化全栈公司需软硬件深度协同并相互反哺,纯模型供应商的关键则在于对异构硬件的适配性。最后,商业落地的深度与广度是衡量实际价值的最终标尺。这些维度共同构成企业从技术到市场的完整竞争力链条,是决定企业能否穿越概念期,实现可持续发展的根本。
相较于美国在基础算法与前沿模型领先,中国具身智能产业的竞争力根植于强大且完备的制造业供应链,从而催生出从硬件设计量产、具身数据规模采集到特定场景产品化部署的完整闭环。这种垂直整合能力不仅保障在工业、商用等封闭场景中更快的商业化落地,也为模型训练构筑了规模化、高质量的数据供给基石。
然而,强大的供应链与落地能力,并不能完全对冲底层核心技术创新的长期挑战。当前市场估值仍蕴含显著的预期泡沫,众多企业的估值与其商业化进展并不匹配。随着技术爬坡进入深水区、商业闭环的验证周期拉长,行业或将面临理性的估值回调与出清。对于投资者而言,穿透概念、辨别真伪的关键,在于挖掘那些真正能将场景与制造优势切实转化为可量化技术性能、可验证商业回报与可持续产业生态的标的。
03

典型厂商:价值实现路径与投资逻辑映射

(1)智元机器人

智元机器人以创新的ViLLA架构为核心,其通用具身基座大模型GO-1融合VLM和混合专家系统(MoE),实现了感知、隐式规划与执行的一体化闭环。该技术架构为公司奠定了软硬一体发展的基础。

公司核心策略是通过开源GO-1模型、百万级真机数据集AgiBot World及世界模型EVAC,构建开发者生态、引领数据范式升级,并反哺自身技术迭代与产品落地。其标志性产品远征A2人形机器人已在工业制造等场景开展落地探索,形成以开源生态驱动产品与场景拓展的独特路径。关键验证点在于能否将生态优势切实转化为自身产品在闭环场景中的性能优势与商业订单。

(2)自变量机器人

自变量机器人以其自主研发的统一端到端VLA模型WALL-A为核心,其采用单一Transformer架构实现从感知到控制的直接映射。该模型已开源为WALL-OSS,体现了公司对技术透明与生态协作的投入。其架构优势在于处理长序列、高动态的物理交互任务以及零样本泛化能力。

在业务布局上,公司以WALL-A模型驱动覆盖多场景的机器人产品矩阵。其核心产品构成从整机到关键部件的完整体系。其中,最新推出的轮式双臂机器人量子2号专注于在家庭服务、柔性制造等垂直场景中实现深度闭环。其投资价值在于通过统一架构+垂直深耕的策略,在特定领域快速构建数据与认知壁垒,验证端到端模型在复杂任务中的商业化潜力。

(3)诺亦腾
诺亦腾将融合惯性传感器与光学追踪的HybridTrack混合系统集成至自研仿真训练解决方案,实现从动作捕捉设备供应商到产业数据基础设施关键供应商的升级。该技术通过两种技术的互补校正,兼顾了高精度与复杂环境的适应性。
在具身智能领域,公司基于该技术集成至NVIDIA Isaac Sim等仿真平台,打造标准化数据采集与训练闭环,已服务于智元机器人、千寻智能等企业,驱动“仿真-现实-仿真”的迭代优化。其投资逻辑在于卡位数据飞轮的核心生产环节,无论下游模型与本体竞争格局如何变化,对高质量数据的需求将持续增长,使其业务具备较高的确定性。
五、投资建议
具身智能大模型作为定义下一代机器人智能等级与商业价值的核心,其产业仍处于早期技术爬坡与商业化探索阶段。投资逻辑应紧密围绕“构建物理世界通用智能”这一终极目标,在技术演进与商业落地平衡中,识别能够定义关键环节、构建长期壁垒的企业。具体建议聚焦以下四个方向:
01

优先布局高精度动捕系统与高效合成数据平台

数据是训练具身大模型的关键燃料,但符合物理交互逻辑的高质量多模态数据极为稀缺。因此,能够实现高保真、低成本数据生产与处理的基础设施,成为产业发展的核心瓶颈与高价值环节。投资机会紧密围绕两类核心数据的供给体系:一是以高精度、低成本、易部署动作捕捉系统为代表的真机数据采集工具,它是获取真实物理反馈、弥合虚实差距的标尺;二是以高保真物理仿真和生成式世界模型为核心的合成数据平台,其通过规模化生成数据来拓展训练边界、驱动数据飞轮高效运转。该方向的壁垒在于物理规律的工程化封装能力以及工具链和开发者生态的完整性。
02

重点关注垂直场景的软硬一体化路径

通用智能的实现仍需长期攻坚,而在工业制造、仓储物流、特种作业等高价值垂直场景中解决复杂长程任务,已成为现阶段最切实的商业化突破口。具备这种能力的团队通常具备软硬件协同设计的基因,其核心竞争力并非来自单一的算法优势,而是通过将自研模型与深度适配的本体在真实场景中持续部署与迭代,形成“感知-决策-执行-反馈”数据闭环,过程中持续积累场景Know-How与专属数据资产。这一路径能更快实现技术验证与商业回报,并随着数据闭环的运转不断强化其在细分领域的护城河,是产业初期推动商业正循环的关键力量
03

聚焦于前瞻性的系统架构与全栈技术能力

未来机器人的大脑更可能是一个协同工作的异构系统,而非单一模型。因此,构建“认知-推理-控制”融合架构的能力是具身大模型产业演进的核心主线。其关键在于能够将VLA的多模态理解、世界模型的前瞻推理与底层实时控制算法进行系统级整合与协同。当前技术路线呈现认知端到端化、内部模拟化与控制高效化的融合趋势。这一方向决定下一代技术范式,是决定长期产业格局的战略高地。
04

惕脱离实际进展与商业验证的估值泡沫

当前市场热情高涨,需理性辨别概念炒作与真实能力。评估应坚持以可量化的硬性指标为核心,例如复杂长程任务的成功率与稳定性、零样本泛化能力的覆盖广度、数据获取与模型迭代的真实成本,以及清晰的商业化路线图。核心在于筛选出那些深刻理解物理智能复杂性与工程落地挑战,并能在资源约束下持续打磨产品、构建场景闭环的务实团队。

主要参考文献:

[1]相关公司公告和官网.

[2]大模型时代的具身智能.哈工大社会计算与信息检索研究中心

[3]AI大模型驱动的具身智能人形机器人技术与展望.王耀南等.中国科学:信息科学

[4]2025年具身智能产业星图.智友雅瑞科创平台

[5]机器人大模型,多模融智,硅基具升.中金证券

[6]WorldVLA:面向自回归动作的世界模型.AI速译官

[7]人形机器人“大脑”:神机妙算,加速进化.民生证券

[8]大模型与数据为人形机器人打开脑洞.国泰海通证券

关于华强创投

华强创投作为华强集团VC/PE投资的平台,紧跟国家产业政策,致力于挖掘科技创新企业价值,以赋能式投资伴随企业和管理团队共同成长,帮助企业发展壮大,实现产业协同,达到合作共赢。

华强创投主要投资于具有高成长性的高新技术企业,投资领域涉及半导体、高端设备、新材料、物联网等。

声明:本公众号及其推送内容的版权归华强创投所有,华强创投对本公众号及其推送内容保留一切法律权利。未经华强创投事先书面许可,任何机构或个人不得以任何形式翻版、复制、刊登、转载和引用,否则由此造成的一切不良后果及法律责任由私自翻版、复制、刊登、转载和引用者承担。

 
打赏
 
更多>同类资讯
0相关评论

推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  皖ICP备20008326号-18
Powered By DESTOON