AGENT AI-surveying the horizons of multimodal interaction

news/2025/4/2 17:49:12/文章来源:https://www.cnblogs.com/gjchen/p/18639384

（转自https://www.cnblogs.com/hifrank/p/18416222）

标题：AGENT AI: surveying the horizons of multimodal interaction
作者：Zane Durante, Qiuyuan Huang, Naoki Wake, Ran Gong, Jae Sung Park, Bidipta Sarkar, Rohan Taori, Yusuke Noda, Demetri Terzopoulos, Yejin Choi, Katsushi Ikeuchi, Hoi Vo, Li Fei-Fei, Jianfeng Gao
关键词：多模态、智能体

1. 概念和背景

Agent AI：Agent AI是一种交互系统，它可以感知视觉刺激、语言输入和其他基于环境的数据，并可以产生有意义的具体行动（embodied actions）。
LLM：Large Language Model
VLM：Visual Language Model
MAA：Multimodal Agent AI

人工智能社区正处于重大范式转变的风口浪尖：

过去：为被动的结构化任务创建人工智能模型
未来：能够在多样化和复杂的环境中承担动态代理角色的模型

2. Agent AI integration

Agent AI 的测试推进了元宇宙的发展，并通向通用人工智能（AGI）的早期阶段。

2.2 Agent AI with Larget Foundation Models

AI agent 系统通常具有如下的能力：

预测建模
决策指定：在一些应用中，AI agent会根据推理进行决策，例如推荐系统中根据用户偏好进行推荐
处理歧义：根据上下文和训练消解起义（但也会受制于训练集的范围）
持续提升：一些AI agent 能够从新数据中学习，一些只能保有上一次训练的能力

2.2.1 幻觉 Hallucinations

幻觉可以分为两种：

内在的 Intrinsic：生成的内容和源材料相矛盾
外在的 Extrinsic：包含源材料中不存在的内容

promising的解决方法：

检索(retrieve)额外的源材料
提供检查生成内容和源材料的机制

2.2.2 偏见与包容性 bias and inclusivity

提升模型包容性的方法：

使用多样的、包容的训练数据
偏见检测和纠正
设计模型时考虑到不同种族、宗教、群体等因素
考虑用户反馈，持续改进模型

终极目的是创建一个AI agent，能够为所有用户所用(respectful and accessible)，无论用户的背景和身份

2.2.3 数据隐私

考虑到用户数据的收集、使用、存储、保护，同时确保用户有获取、纠正、删除数据的权利。

3. Agent AI Paradigm

本文为智能体AI提出了如下范式：

期待实现的目标为：

利用现有的预训练模型/策略有效地促进智能体理解文本、视觉输入
支持长期的任务规划能力(long term task-planning capabilities)
提供一个记忆框架，支持对学习过的知识进行编码和检索
能利用环境反馈来有效训练智能体

可以使用Agent Multi-modal Transformer 代替冻结的LLM或VLM。
Agent Multi-modal Transformer可以接收三种形式的输入

文本token
视觉token
Agent token：用于保存智能体行为的输入和输出空间的特定子空间（例如机器人）

4. Agent AI Learning

4.1 Strategy and Mechanism

4.1.1 强化学习

将强化学习用于训练交互性智能体有丰富的研究历史，并展示出了有智能的行为。强化学习可以用来学习状态和动作之间的最优关系。

但是强化学习面临着如下的困难，可以通过大模型进行解决/缓解：

设计奖励函数：策略学习(policy learning)非常依赖奖励函数的设计，有一些研究探索了使用LLM/VLM来设计奖励函数
数据收集和效率
长步骤(Long-horizon steps)：随着动作序列的增长，强化学习会面临更多的挑战。解决办法是将复杂的问题分而治之，该框架称为任务动作规划（task and motion planning）。
- 高层级的任务规划(task planning)可以通过LLM执行
- 低层级的控制可以通过基于强化学习的政策解决。

5. Agent AI Categorization

可能的研究领域：

首要主题：多模态智能体、通用智能体
次要主题：具身智能、动作智能体、语言智能体、视觉语言智能体、知识和推理智能体、游戏智能体、机器人、医疗
延申主题：视觉导航、仿真环境、重新排列、智能体基础模型、VR/AR/MR、具身视觉和语言。

5.2 具身智能

具身智能的目标是创造能够和环境交互的、解决挑战性任务的智能体/机器人。

5.2.1 行动智能体 Action Agent

行动智能体指的是智能体能够在仿真环境或现实世界中执行物理动作。
根据行动智能体的应用领域，可以分为两类：

游戏AI：在游戏中和游戏环境和其他独立实体互动
机器人

5.2.2 互动智能体 Interactive Agent

比action agent的类别更宽泛，不一定要执行物理动作，但是可能涉及到信息交流或改变环境。
可能的应用领域有：诊断、知识检索智能体

5.3 仿真环境智能体 Simulation and Environments Agents

在现实中训练智能体通常是耗时、代价高、危险性高的。
许多仿真平台提出了在具身智能方面的研究，包括导航、物体操作等。

5.4 生成式智能体 Generative Agents

生成式大模型具有如下潜力：

减少大型游戏工作室的时间、成本开销
允许小型独立开发者创造高质量的原型，充分发挥其创造力

应用的方面包括：

为物体间的交互添加随机的行为和规则（通过提示词）
通过视觉大模型生成平面几何图形
使用扩散模型为内容重新生成纹理

5.5 知识和逻辑推理智能体 Knowledge and Logical Inference Agents

5.5.1 知识智能体 Knowledge Agent

知识智能体在两个方向上对他们获得的知识系统进行推理：隐式和显式。

隐式推理：典型的如LLM GPT系列。这些模型可以给出基于理解的回答，因为它们利用了在训练过程中隐性学习的模式和信息(patterns and information)。
显示推理：对已有的知识库/数据库进行查询或检索（类似于专家模型）

5.5.2 逻辑智能体 Logic Agent

逻辑智能体是系统中的一个组件，能够在处理数据时进行逻辑推理，或是解决逻辑推理相关的任务
基础模型（如GPT4）的局限性：虽然能够进行某种程度上的推理，但是其生成的回答是基于大量语料中学习到的pattern，而不是遵从清晰的逻辑规则或是对逻辑的理解。
可能的解决方法：在架构中嵌入一个独立的逻辑子模块。该方法通过将文本解析成逻辑段，并显式地对令牌嵌入中的逻辑层次建模，来修改LLM在预训练期间使用的令牌嵌入过程。

6. Agent AI 的应用任务

6.1 游戏

游戏为测试LLM和VLM的智能体行为提供了一个独特的沙盒环境，能够测试其合作及决策能力。

NPC行为：通过LLM/VLM赋予NPC自主性和适应性，是游戏体验更加的不可预测、更沉浸式。
游戏场景合成：让LLM/VLM学习物品防止规则、设计学、光影能够进一步提升场景生成的质量。

6.2 机器人

任务规划：VLM、LLM
低层控制：强化学习、模仿学习、Learing-from-Observation

6.3 医疗 Health Care

6.4 多模态智能体 Multimodal Agents

6.4.1 图像-语言理解和生成

多模态智能体需要识别图像中的对象，还要理解它们的空间关系，生成关于场景的准确描述性句子，并利用推理技能来处理知识密集型视觉推理。

6.4.2 视频-语言理解和生成

视频-语言生成：视频字幕/视频故事讲述是为一段视频帧生成连贯的句子。该领域的一个重要目标是创建一个agent-aware的文本合成模型，可以有效地编码帧序列，并生成一个主题连贯的多句段落。
视频理解：视频理解将图像理解的范围扩展到动态视觉内容。这涉及到对视频中帧序列的解释和推理，通常与伴随的音频或文本信息相结合。智能体应该能够与各种视觉、文本和音频形式进行交互，以展示他们对视频内容的高级理解。该领域中的任务包括视频字幕、视频问答和活动识别等。视频理解的领导者是多方面的。它们包括视觉和语言内容的时间对齐，长序列帧的处理，以及随着时间的推移展开的复杂活动的解释。关于音频，智能体可以处理语音、背景噪音、音乐和语调，以理解视频内容的情绪、设置和微妙之处。

6.6 用于自然语言处理的智能体 Agent for NLP

文章提出了三个具体的方向，用于改善基于语言的智能体：

工具使用和查询知识库：此方向强调将外部知识库、网络搜索或其他有用的工具集成到人工智能代理的推理过程中
提升智能体的推理能力和规划能力 (reasoning and planning)：这涉及到开发能够理解复杂指令、推断用户意图和预测潜在未来场景的模型。可能的解决方式：
- 让模型反思过去的行为和错误
- 将智能体的思维过程建模成一系列搜索
协同系统和人类的反馈：