一、报告摘要
本报告基于现有资料,系统梳理了具身智能(Embodied Artificial Intelligence, EAI)的核心概念、技术演进路径及其代表性应用——高德地图ABot体系。报告旨在为读者提供一个关于AI从虚拟算法走向物理交互这一范式跃迁的清晰脉络与现实图景。
二、具身智能:概念、本质与发展
2.1 核心定义与本质特征
根据中国计算机学会(CCF)的定义:
- 具身智能
是一种基于物理身体进行感知和行动的智能系统,通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。 - 本质特征
:相比传统仅存于屏幕中的AI,具身智能通过身体实现 **“感知—思考—行动”**的闭环,在真实世界中执行任务,不仅能“想到”,更能“做到”,使智能从虚拟计算走向现实交互。
其核心假设是:智能的涌现离不开身体与环境的耦合,正如婴儿通过抓握、行走等具身经验来发展认知能力。
2.2 为什么是AI发展的下一个方向
- 传统AI的局限性
:以GPT系列为代表的传统AI依赖文本数据进行“离身性”(disembodied)推理,缺乏物理实体,无法从真实环境中习得“常识”,也难以形成真正的感觉与意识。 - 具身智能的范式革命
:标志着AI从符号推理走向物理交互的变革。它强调智能系统通过具身化与物理世界动态互动,在“感知—决策—行动”的闭环中实现认知进化。 - 产业界领袖的观点
: - 英伟达创始人黄仁勋
(2025年1月CES展):“人工智能的下一个浪潮就是具身智能,蕴藏着价值万亿美元的机会。” - 特斯拉创始人埃隆·马斯克
(同月访谈):“其旗下人形机器人产量将在未来3年内增加100倍。”
2.3 典型代表与技术体系
- 代表性产品
:波士顿动力Atlas机器人。 - 迭代
:从初代液压版升级为全电动版,身高从1.88米优化至1.5米,体重从150千克减至80千克。 - 关键进展
:2024年4月,初代液压版退役。2025年3月,新一代电动版展示托马斯全旋、空中劈叉等高难度动作。 - 核心技术框架
:“视觉-语言-动作”模型正逐步成为新一代核心技术框架,其技术体系包括: - 多模态感知技术
:帮助智能体可靠理解环境。 - 基于大语言模型的认知推理系统
:帮助实现复杂任务的语义理解和行为规划。 - 基于强化学习的方法
:为智能体提供基于环境反馈的策略自主优化。 - 基础支撑
:MuJoCo、NVIDIA Isaac、RoboVerse等仿真平台为训练提供环境。真实环境数据采集对提升系统泛化能力至关重要。
2.4 发展现状与产业格局
- 形态多样性
:广义上,具身智能形态多样,包括机械臂、无人车、无人机、四足机器人等任何有物理实体并能与环境交互的智能系统。 - 焦点载体
:人形机器人由于能最自然地融入人类环境、使用人类工具而被视为最重要的载体之一。 - 全球竞争格局
: - 国外
:特斯拉、谷歌、OpenAI、英伟达、微软、Meta、亚马逊等科技巨头从算法、平台、场景应用等不同维度积极探索。 - 国内
:腾讯、阿里、字节、京东、美团等互联网巨头通过投资、自研、生态共建等方式入场。
三、从对话大模型到具身智能的演进路径
其核心演进逻辑是构建一个统一的、端到端的视觉-语言-动作模型,为智能体赋予完整的“生命体征”。
3.1 能力分层演进
- 认知内核
:源于大语言模型。具备强大的推理、常识和语言理解能力,相当于 “大脑”。 - 多模态感知
:源于视觉-语言模型。原生支持视觉-语言联合理解,相当于 “眼睛”。 - 物理交互
:视觉-语言-动作模型的核心。能将感知和认知无缝转化为物理世界的行动指令,相当于 “手和脚”。
3.2 技术路径与框架融合
- 传统框架的局限与结合
:具身智能的传统框架(模仿学习、强化学习、模型预测控制)各有局限。大模型技术能与这些框架结合以克服问题: - 模仿学习
:用大模型作为基础策略,降低学习难度。 - 强化学习
:大模型可帮忙生成合适的奖励函数,并对齐人类偏好。 - 模型预测控制
:大模型可用于构建更泛化的环境模型。 - 发展观点
:软件通用化,硬件多样化。硬件(机器人)形态应根据具体场景适配,不必一味追求“像人”。
3.3 进化驱动
- 端到端训练与强化学习是关键
:通过与物理世界实时互动的强化学习,让智能体在试错与实践中进化,逐步靠近通用人工智能的终极目标。
四、高德ABot:具身智能的具体应用案例
4.1 高德地图AI Native应用与具身机器人“途途”
- 应用升级
:高德地图2025版本实现了全面AI化升级,推出具备自主推理能力的出行生活智能体 “小高老师”。 - 入口
:在高德App最新版中,点击搜索栏语音图标或首页“对话”,即可与“小高老师”进行自然语言交流。 - 能力
:基于与通义共建的多元大模型簇,协同出行、生活、空间三大子智能体,可为全球超过10亿用户提供覆盖行前、行中、行后的全旅程AI服务。 - 具身机器人产品
:2025年4月19日,高德在北京亦庄人形机器人半程马拉松赛事上公开了旗下首款具身机器人产品——途途(一款四足机器人)。 - 核心突破
:是全球首款可在开放环境下全自主行动的具身机器人。 - 核心场景
:协助视障人士在复杂城市环境中完成导盲、避障、寻路等任务,现场演示了在无需预设路线和人工遥控的情况下,规避动静态障碍、穿行密集人群、自主寻找补给站等能力,核心模型为自研的Abot-N0。
4.2 ABot-N0模型与ABot技术体系
- ABot-N0模型特点
:核心在于 “全任务一统”。在单一视觉-语言-动作架构内,统一实现五大核心导航任务: - 性能
:已在CityWalker、SocNav等7项国际评测中达到SOTA水平,相关研究成果获CVPR 2026等顶级会议录用十余篇。 点位导航 目标物导航 指令跟随 POI导航 行人跟随 - ABot技术体系
:高德构建了全球首个面向AGI的全栈具身技术体系,分为DATA层、MODEL层和AGENT层,形成数据驱动模型、模型服务系统、系统反哺数据的闭环飞轮。 - 数据层
:自研的Abot-World世界模型提供了千万级真实训练场景。 - 智能体层
:搭载具备反思和纠错能力的具身版“龙虾”(Abot-claw)系统,以确保任务完成为核心目标。
4.3 高德地图Skills:面向普通用户的功能与应用
高德地图提供了两种主要类型的Skills供用户使用:
基于地理信息的生活/办公助手:
智能搜索与规划 数据可视化分析:例如,将地理信息点位数据以热力图形式展示。 基于高德地图的网站生成助手:
诉求即产品:用户输入产品诉求(如“使用高德地图JS API,开发一个POI搜索与路径规划的应用”),即可生成完整网站代码并在本地交互。
应用场景案例:
- 地点搜索
:用户说“搜索天坛公园”,Skill直接返回详细信息卡片。 - 旅游规划
:用户输入“帮我规划一下北京动物园一日游。从北京南站出发,先去附近的酒店,然后去动物园,最后去附近的餐厅吃饭。”,Skill自动拆解需求,生成包含时间轴、预估耗时、具体选项的电子路书。
五、具身智能对普通人的实际价值与现实意义
5.1 解决社会实际挑战
业界专家钟新龙指出,具身智能是回应人口老龄化、制造业升级和服务业提质多重挑战的务实路径。
- 缓解劳动力短缺
:可替代人类进入危险环境(矿山、化工、救援)作业或承担繁重的护理、陪伴、配送等服务,优化劳动力结构。 - 创造新需求
:催生新产业、新业态(如科学智能机器人、高端个人服务机器人)。
5.2 具体应用场景与案例
- 医疗健康
: - 达芬奇手术机器人
:提高手术安全性与效率。 - 日本Paro智能海豹机器人
:通过触觉反馈和声音识别为老年人提供情感支持。 - 特种作业与公共安全
: - 乌克兰STI扫雷无人机系统
:野外作业效率是人工排雷的4倍。 - 美国宇航局“毅力号”火星车
:展示自主采样与探测能力。 - 国内案例
:警用机器人(全运会)、核电检修机器人“悟空”(可检测0.05米间隙内发丝级缺陷)、公园清扫机器人等。 - 民生服务(高德“途途”的切入点)
:瞄准导盲领域。据中国残疾人联合会统计,我国视障群体超1700万,而全国导盲犬保有量仅约400只,普及率不足万分之三。智能导盲犬通过算法替代驯化,有望实现能力超越。
5.3 当前发展阶段
- 2025年
:被称为“具身智能产业化元年”。产品正从数字世界走向物理空间。 - 发展水平
:据专家田杰棠分析,类比自动驾驶的L1-L5分级,当前国内外具身智能基本处于L2级别,即能够在特定场景执行相对特定的任务。
六、总结
具身智能代表着人工智能从虚拟算法驱动到真实环境实体交互的范式革命。其核心是构建“感知-认知-行动”的闭环,通过物理身体与世界的动态交互实现智能进化。技术路径上,正通过融合大语言的认知、多模态的感知和视觉-语言-动作模型的执行能力,向端到端统一模型演进。以高德ABot体系及其机器人“途途”为代表的应用,展示了具身智能在解决现实问题(如视障人士导盲)上的初步落地能力。尽管当前整体仍处发展初期(约L2水平),但其在应对人口老龄化、劳动力短缺、提升各行业效率与安全方面的潜力已被产业界广泛认可,被视为价值万亿美元的新兴方向。


