← 返回前沿探索
2024-2025

具身智能进展

大模型与机器人结合,开启物理世界AI新时代

具身智能概述

具身智能(Embodied AI)研究如何让AI通过物理身体与环境交互。与纯软件AI不同,具身智能需要在真实的物理世界中感知、决策和行动。

这是通往通用人工智能的关键路径——真正的智能体需要能够在物理世界中自主行动。

VLA模型

Vision-Language-Action(VLA)模型将视觉、语言和动作控制统一,实现自然语言到物理动作的端到端映射。

视觉理解

识别物体、场景、空间关系。

语言指令

理解自然语言任务描述。

动作生成

输出机器人可执行的动作序列。

代表性进展

Figure AI:人形机器人公司,与OpenAI合作将GPT模型嵌入机器人。

Tesla Optimus:特斯拉的人形机器人项目,目标是大批量生产的通用机器人。

Boston Dynamics:Atlas机器人的最新进展展示了惊人的运动能力。

RT-X:Google DeepMind的机器人基础模型,使用大规模机器人数据训练。

技术意义

具身智能是AI"走出屏幕"的关键。当大模型与机器人结合,AI不再局限于数字世界,而是能够影响物理世界。这将深刻改变制造业、物流、医疗、家庭服务等领域。