当前,具身智能(Embodied Artificial Intelligence)作为人工智能领域的一个分支,正在成为学术界和产业界备受关注的一个焦点。
所谓具身智能Embodied AI,指的是有身体并支持物理交互的智能体。英伟达(NVIDIA)创始人兼CEO黄仁勋在ITF World 2023半导体大会上称,具身智能将引领下一波人工智能浪潮。在产业界,谷歌DeepMind推出首个控制机器人的视觉语言动作(VLA)模型RT-2;凭借ChatGPT取得巨大成功的OpenAI,曾经解散机器人团队,如今投资挪威机器人初创公司One X Technologies,推出名为Neo的新型人工智能机器人。
国内政策也在推进具身智能的发展。5月,北京市发布《北京市促进通用人工智能创新发展的若干措施》,提出探索通用智能体、具身智能和类脑智能等通用人工智能新路径,包括推动具身智能系统研究及应用,突破机器人在开放环境、泛化场景、连续任务等复杂条件下的感知、认知、决策技术。
01
什么是具身智能?
根据中国计算机学会专家的定义,具身智能(Embodied Artificial Intelligence)是指一种基于物理身体进行感知和行动的人工智能系统,其通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,从而产生智能行为和适应性。
具身智能植根于认知科学“具身认知”的概念,该概念强调身体在主体的思想和认知能力的形成中发挥的重要作用,认为身体与周围环境之间的互动是发展认知能力的基础。具身视角带来了人工智能系统与物理世界交互的必要性。
机器人技术给了具身智能身体,因为相对于计算机定义输入,机器人可以与物理世界互动。机器人技术为人工智能系统提供了具有感官和运动能力的身体。通过集成摄像头、麦克风和触觉传感器等一系列传感器,配备轮子、电动关节、夹具等执行器,人工智能能够像人类一样依靠感官来感知世界,与环境进行交互和探索,实现具身智能体的“看”“说”“听”“动”等。
人工智能系统是具身智能的“头脑”。随着深度学习的不断进步,具身智能的“头脑”通常由深度神经网络模型驱动,尤其是随着大语言模型(LLM)的发展,结合视觉等多种传感器的复杂多模态模型,成为一大趋势。具有通用能力的LLM和VLM(视觉语言模型)等模型,赋予了强大的泛化能力,使得机器人从程序执行导向转向任务目标导向,不再受限于特定的程序执行,而能够根据任务目标智能地采取行动。从丰富的数据和任务中学习决策和控制,它们不断演化以适应更复杂的任务和环境。
具身智能的目标是让具有感知和行动能力的智能体(如机器人),在与环境的交互中持续演进,逐渐产生认知能力,能够理解、推理、学习、规划和决策,甚至具备常识和情感,从而实现更复杂的功能。
02
弥合数字AI与物理世界的距离
截至目前,人工智能取得了令人兴奋的进展,但仍存有一个尚未克服的基本限制——它仅限于数字领域。现有的多数人工智能系统纯粹以数字形式存在,没有“身体”,缺乏与物理世界的直接连接。这种局限性具体体现为以下几点:
缺乏实际存在
数字人工智能系统本质上是代码、算法和数据。虽然它擅长处理信息和解决数字领域的复杂问题,但它缺乏有意义的与现实世界交互所需的感官输入和物理存在。
环境意识有限
由于缺乏视觉、触觉或声音等感官体验,理解物理世界的复杂性对数字人工智能系统提出了挑战。因此,它很难有效地应对现实世界的情况。
情境理解
在物理世界中,上下文对于语义理解起着至关重要的作用。然而,主要依赖于数据和算法的数字人工智能系统在处理上下文方面经常遇到挑战。因此,它很难理解微妙的细节并根据态势感知做出明智的判断。
数据依赖性
数字人工智能严重依赖历史数据,这会降低其对不可预见情况的适应性。这种以数据为中心的方法可能会限制其在不断变化的现实环境中有效响应的能力。
具身智能通过创建与现实世界交互的人工智能系统,为这些限制提供了一个解决方案。可以说,具身智能弥合了数字AI与现实世界的距离。