2024年一季度,人形机器人厂商纷纷推动自家人形机器人“进厂打工”,早有特斯拉明确Optimus目标为代替人劳动,预计24年将用于特斯拉工厂,前有Figure 01进入宝马的斯巴坦堡汽车从事“高危工作”,现有优必选的工业版人形机器人Walker S在合肥蔚来工厂“实训”。
在这个产业化重要节点的背后,是AI和机器人的融合发展当前来到了临界点,机器人不再仅仅是AI的一种应用,人形机器人成为未来具身智能通往AGI的重要载体。随着各大人形机器人制造商陆续公布量产计划,这个未来正逐渐变得清晰。
在此背景下,「甲子光年智库」推出具身智能和人形机器人产业生态研究系列短报告。希望共同探讨以下几个话题:
1.具身智能和人形机器人融合发展的产业生态是一个什么样的架构?
2.本体层面,人形机器人关键零部件技术进步和方案创新升级,如何推动更高自由度的实现?
3.智能体层面的技术进展和挑战有哪些?大模型为代表的技术创新突破如何改变了智能体?
4.如何看待软硬解耦与软硬一体的争议?
......
本次报告将就问题1展开探讨,敬请大家持续关注其他系列~
在AI与机器人技术的融合进程中,我们正见证着一个高级阶段的到来,即具身智能的诞生。这一概念指将AI的高级认知功能与机器人的物理形态相结合,创造出能够在现实世界中自主行动和学习的智能体。具身智能的出现标志着我们向AGI迈进的关键一步,它不仅是技术发展的必然趋势,也是实现真正智能机器人的必经之路。
在机器人技术的发展轨迹中,我们通常采用从L0到L5的等级划分来衡量机器人的自主性和智能化程度。这一划分体现了机器人从完全依赖人类操作到完全自主执行复杂任务的演进过程。
L0级别也称为无自动化,其操作完全依赖于人类智能,没有自主决策的能力。 L1级别的机器人开始具备有限的自动化功能,如自动执行预设的简单任务,但仍然需要人类的操作。 L2级别的机器人则进一步发展,通过算法驱动能够在特定条件下自主执行任务,但一旦遇到未知情况或任务失败,仍需人类介入。 L3级别的机器人则能够在更广泛的操作环境中实现自主性,它们可以在没有人类直接控制的情况下完成人类设计的任务,但仍需人类在系统出现问题时进行干预。 L4级别时,机器人已经能够在大多数情况下自主完成任务,即使在复杂和动态的环境中也能保持稳定的表现,人类在大多数时候可以作为一个观察者的角色。 L5级别的机器人代表着未来的具体智能人形机器人,能够在任何环境和任务中无需人类干预自主操作。这是机器人自主性和智能化程度的最高等级,也是人工智能领域追求的终极目标。

交互:是智能体与外部世界沟通的界面,它负责处理智能体的感知输入和执行输出。这一层的关键技术包括UI/UX设计,NLP、计算机视觉、情感计算和通信。 算法:是智能体的“大脑”,负责处理数据、做出决策和规划行动。这一层的关键技术是机器学习,尤其是多模态大模技术的突破性进展显著加速了人形机器人产业的发展。在运动控制领域,通过在仿真环境中应用大模型进行“See to Learn”训练,人形机器人在行走和执行复杂动作方面取得了显著进步。在认知层面,可以看到谷歌的RT-2(VLA模型)进一步提升了人形机器人的智能水平,使得机器人能够自主进行判断和识别,执行复杂的多阶段语义推理任务。例如,机器人能够决定在特定情境下哪种物体可以作为临时工具,或者选择最适合的饮料。这种能力不仅提高了机器人的泛化能力,也快速推动了人形机器人通往量产的进程。 数据:是智能体的知识库,负责存储、管理和处理所有收集到的数据。这一层的关键技术包括数据采集、数据存储、数据隐私与安全、数据处理分析和数据通信。

