亚里士多德的哲学强调，部分的整合能超越其总和。

1. 概要

人工智能需要摆脱过度还原主义(excessive reducationism)，转向一个整体的系统。本文提出一个新的模型概念——Agent Foundation Model。一个具身智能体（embodied agent）被概念化为一个互动系统，它通过感知能力与人类进行交流，并与环境互动，执行符合人类意图的动作。

作者相信，AI 社区将稳步积累必要的知识，从而使 AI 模型从用于被动、结构化任务转型为能够在复杂环境中进行动态交互的角色。这种方法的动机在于，智能源于学习、记忆、动作、感知、计划和认知之间的复杂相互作用。本概念与一些先前的交互策略的一个关键区别在于，在训练之后，Agent的动作将直接影响任务规划，而无需从环境中接收反馈来规划下一步行动。

2. Agent AI Paradigm

2.1 Agent AI的基本原理

学习

利用强化学习（RL）技术或从人类示范中进行监督学习（如模仿学习（IL）、行为克隆）。
记忆
长期记忆： 记住特定操作，适应环境或用户偏好。
短期记忆： 涉及在操作过程中采取的动作历史和观察到的感知。短期记忆使系统能够根据历史重新规划并考虑下一步行动。
动作
不一定是现实世界中的物理动作。根据环境的定义，动作可能包括在虚拟现实（VR）环境中的交互或与人类的语音交流。需要多次与人类或环境之间的交互。
感知
视觉、音频等。

规划

规划策略通常取决于任务目标。面向目标的规划可以实现灵活操作。

认知方面

实现快速部署，不依赖环境等外在因素。需要有一个机制来协调每个Agent AI的组件。

2.2 Agent AI的意识

根据Butlin等人（2023）的研究，能动性（Agency）和具身性（Embodiment）是意识的指标。

能动性（Agency）： 指的是从反馈中学习、做出决策以追求目标并适应冲突目标的能力。它表明系统通过与环境的互动来试图实现目标。
具身性（Embodiment）： 涉及理解和利用动作与环境反馈之间的关系，从而影响感知或控制。

3. Agent AI Foundation Model

作者坚信，超越高层次意图指令（high-level intention instructions）的人机多模态交互，是一个有前景的研究领域，并且是未来在细粒度动作操控（low-level fine-grained actions manipulation）中的发展方向。作者们还对在多Agent AI架构中，开发能够实现高效在Agent AI间沟通和协作的系统感兴趣。此外，作者们还探索新的范式和学习策略。

3.1 Agent Transformer

该模型使交互式Agent能够基于多模态信息采取行动。它由三个预训练的子模块组成：视觉模块、动作模块和语言模块。

3.2 使用强化学习（RL）和模仿学习（IL）的学习策略

RL技术可用于模拟人类与AI的交互，这是交互式Agent AI的重要组成部分。
IL旨在利用示范数据模仿人类的行为。行为克隆（BC）是一种让机器人通过直接复制人类的动作来进行训练的方法。
利用图像输入学习智能代理行为多年来一直是研究的热点。然而，使用RGB输入面临维度灾难(curse of dimensionality)的问题。当前的一个解决方案是使用更多数据或在模型中引入归纳偏差。

3.3 系统优化

优化分为空间和时间两个方面：

空间优化：
自我博弈强化学习（self-play reinforcement learning）可以让一组Agent随着时间的推移不断改进。然而，这可能导致非常脆弱的代理，它们只能在自我博弈的训练环境中工作，而无法与人类或其他独立Agent协作，因为它们过度适应了自我博弈的训练范式。为了解决这一问题，可以通过Cui等人（2023）和Sarkar等人（2023）提出的多样化约定集(diverse set of conventions)，训练一个能够理解广泛约定的Agent。
时间优化：
通过交互并结合环境因素来解决高效任务规划问题。

3.4 Transformer的自我改进

当前主要依赖于现有的预训练基础模型，通常不会从与环境的持续交互中学习。然而，可以通过迭代学习过程，利用人类反馈来实现自我改进。

4. Agent AI分类

动作（action）：
分为低级（low-level）和高级（high-level）。
环境（environment）：
分为虚拟（virtual）和物理（physical）。

物理环境中的操作动作:

获取真实数据是关键挑战。

虚拟环境中的操作动作:

主要用于通过试错方式训练Agent AI，适用于在物理试验不可行或存在风险的任务。

物理环境中的有意动作:

在医疗领域的应用，如诊断和知识检索。

虚拟环境中的有意动作:

用于在游戏以及VR和XR中创建互动内容。

Multimodel Agent（Non-Embodied）:

提供直观的交互体验，并适应各种环境、上下文和模态。

5. 应用任务

5.1 机器人学

多模态系统：
根据语言指令和视觉提示引导机器人动作。
任务规划和技能训练：
大型语言模型（LLMs）解读指令，并将其分解为机器人动作步骤，推进任务规划技术。
现场优化：
将任务规划与实时环境数据整合，动态调整和优化机器人技能。
对话代理：
实现与人类自然的、具有上下文认知的互动。
导航代理：
如基于地图的路径规划和同步定位与地图构建（SLAM）。

5.2 游戏

NPC行为：
根据玩家反馈和游戏内数据动态调整对话和行为。
人机交互：
提供更类似人类的互动，增加现实感和沉浸感。
基于代理的游戏分析：
识别玩家行为和偏好的模式，以理解用户意图和动作。
游戏场景合成：
根据设计师的需求和当前场景制定不重复的独特景观设计规则，确保生成资产的语义一致性和多样性。

5.3 互动医疗

诊断代理：
帮助分诊和诊断患者。
知识检索代理：
用于可靠的知识检索。
远程医疗和监测：
协助分诊医生、患者和医疗提供者的信息，突出重要会话(highlighting important communications)。

5.4 互动多模态任务

图像和语言的理解与生成：
以更类似人类的方式与世界互动。
视频和语言的理解与生成：
将图像理解扩展到包括动态内容，要求Agent与视觉、文本和音频模态进行交互。

6. Agent AI的部署

探索新范式：
开发整合多模态（音频、图像、文本、传感器输入）的范式。
通用端到端系统：
提供多功能且适应性强的AI解决方案。
模态基础方法：
提升数据处理的连贯性和有效性。
直观的人机界面
优化LLM/VLM
弥合模拟与现实的差距：
域随机化（Domain randomization）、域适应（Domain adaptation）、模拟改进（Improvement of simulation）。
多Agent交互：
实现多个Agent之间的互动。
基础设施和系统：
涉及Agent AI开发、评估和部署的基础设施和方法。

7. Agent AI面临的挑战

1) 非结构化环境（unstructured environments）：
在非结构化环境中，当前的视觉输入会影响embodied agent的高级意图和低级动作，即使目标指令相同。

2) 共情能力（empathy for agent）：
当面对开放集合的对象时，决策模块需要运用常识知识，而这些知识难以手动编码。

3) 多Agent交互与协作（multi-agent interactions and collaborations）：
Agent不仅需要理解和操作模板化指令，还需要理解用日常语言表达的目标、约束和部分计划的上下文。为应对这些复杂挑战，来自更广泛领域的研究人员的参与至关重要。

4) Embodied large agent基础模型的新兴能力（Emergent ability for embodied large agent foundation model）：
通过利用独特且多样的视角，来扩展对Agent Paradigm潜力和局限性的理解。

8. 新兴能力

Mixed Reality with Knowledge Inference Interaction：
代理通过以下方式学习：

跨模态的微反应（micro-reactions in cross-modality）： 从显式的网络资源中收集每个交互任务相关的个体知识（例如理解未知场景），并通过预训练模型的输出进行隐式推理。
现实无关的宏观行为（macro-behavior in reality-agnostic）： 在语言和多模态领域中改进交互维度和模式，并根据角色特征、某些目标变量以及在混合现实和大型语言模型中的协作信息的多样化影响下做出改变。

中文笔记: Agent AI Towards a Holistic Intelligence