AGENT AI-surveying the horizons of multimodal interaction

news/2025/1/1 10:32:49/文章来源:https://www.cnblogs.com/gjchen/p/18639384

(转自https://www.cnblogs.com/hifrank/p/18416222)

标题:AGENT AI: surveying the horizons of multimodal interaction
作者:Zane Durante, Qiuyuan Huang, Naoki Wake, Ran Gong, Jae Sung Park, Bidipta Sarkar, Rohan Taori, Yusuke Noda, Demetri Terzopoulos, Yejin Choi, Katsushi Ikeuchi, Hoi Vo, Li Fei-Fei, Jianfeng Gao
关键词:多模态、智能体

1. 概念和背景

Agent AI:Agent AI是一种交互系统,它可以感知视觉刺激、语言输入和其他基于环境的数据,并可以产生有意义的具体行动(embodied actions)。
LLM:Large Language Model
VLM:Visual Language Model
MAA:Multimodal Agent AI

人工智能社区正处于重大范式转变的风口浪尖:

  • 过去:为被动的结构化任务创建人工智能模型
  • 未来:能够在多样化和复杂的环境中承担动态代理角色的模型

2. Agent AI integration

Agent AI 的测试 推进了元宇宙的发展,并通向通用人工智能(AGI)的早期阶段。

2.2 Agent AI with Larget Foundation Models

AI agent 系统通常具有如下的能力:

  1. 预测建模
  2. 决策指定:在一些应用中,AI agent会根据推理进行决策,例如推荐系统中根据用户偏好进行推荐
  3. 处理歧义:根据上下文和训练消解起义(但也会受制于训练集的范围)
  4. 持续提升:一些AI agent 能够从新数据中学习,一些只能保有上一次训练的能力

2.2.1 幻觉 Hallucinations

幻觉可以分为两种:

  1. 内在的 Intrinsic:生成的内容和源材料相矛盾
  2. 外在的 Extrinsic:包含源材料中不存在的内容

promising的解决方法:

  1. 检索(retrieve)额外的源材料
  2. 提供检查生成内容和源材料的机制

2.2.2 偏见与包容性 bias and inclusivity

提升模型包容性的方法:

  1. 使用多样的、包容的训练数据
  2. 偏见检测和纠正
  3. 设计模型时考虑到不同种族、宗教、群体等因素
  4. 考虑用户反馈,持续改进模型

终极目的是创建一个AI agent,能够为所有用户所用(respectful and accessible),无论用户的背景和身份

2.2.3 数据隐私

考虑到用户数据的收集、使用、存储、保护,同时确保用户有获取、纠正、删除数据的权利。

3. Agent AI Paradigm

本文为智能体AI提出了如下范式:
img

期待实现的目标为:

  • 利用现有的预训练模型/策略有效地促进智能体理解文本、视觉输入
  • 支持长期的任务规划能力(long term task-planning capabilities)
  • 提供一个记忆框架,支持对学习过的知识进行编码和检索
  • 能利用环境反馈来有效训练智能体

img
可以使用Agent Multi-modal Transformer 代替冻结的LLM或VLM。
Agent Multi-modal Transformer可以接收三种形式的输入

  • 文本token
  • 视觉token
  • Agent token:用于保存智能体行为的输入和输出空间的特定子空间(例如机器人)

4. Agent AI Learning

4.1 Strategy and Mechanism

4.1.1 强化学习

将强化学习用于训练交互性智能体有丰富的研究历史,并展示出了有智能的行为。强化学习可以用来学习状态和动作之间的最优关系。

但是强化学习面临着如下的困难,可以通过大模型进行解决/缓解:

  1. 设计奖励函数:策略学习(policy learning)非常依赖奖励函数的设计,有一些研究探索了使用LLM/VLM来设计奖励函数
  2. 数据收集和效率
  3. 长步骤(Long-horizon steps):随着动作序列的增长,强化学习会面临更多的挑战。解决办法是将复杂的问题分而治之,该框架称为任务动作规划(task and motion planning)。
    • 高层级的任务规划(task planning)可以通过LLM执行
    • 低层级的控制可以通过基于强化学习的政策解决。

5. Agent AI Categorization

可能的研究领域:

  • 首要主题:多模态智能体、通用智能体
  • 次要主题:具身智能、动作智能体、语言智能体、视觉语言智能体、知识和推理智能体、游戏智能体、机器人、医疗
  • 延申主题:视觉导航、仿真环境、重新排列、智能体基础模型、VR/AR/MR、具身视觉和语言。

5.2 具身智能

具身智能的目标是创造能够和环境交互的、解决挑战性任务的智能体/机器人。

5.2.1 行动智能体 Action Agent

行动智能体指的是智能体能够在仿真环境或现实世界中执行物理动作。
根据行动智能体的应用领域,可以分为两类:

  1. 游戏AI:在游戏中和游戏环境和其他独立实体互动
  2. 机器人

5.2.2 互动智能体 Interactive Agent

比action agent的类别更宽泛,不一定要执行物理动作,但是可能涉及到信息交流或改变环境。
可能的应用领域有:诊断、知识检索智能体

5.3 仿真环境智能体 Simulation and Environments Agents

在现实中训练智能体通常是耗时、代价高、危险性高的。
许多仿真平台提出了在具身智能方面的研究,包括导航、物体操作等。

5.4 生成式智能体 Generative Agents

生成式大模型具有如下潜力:

  • 减少大型游戏工作室的时间、成本开销
  • 允许小型独立开发者创造高质量的原型,充分发挥其创造力

应用的方面包括:

  • 为物体间的交互添加随机的行为和规则(通过提示词)
  • 通过视觉大模型生成平面几何图形
  • 使用扩散模型为内容重新生成纹理

5.5 知识和逻辑推理智能体 Knowledge and Logical Inference Agents

5.5.1 知识智能体 Knowledge Agent

知识智能体在两个方向上对他们获得的知识系统进行推理:隐式和显式。

  • 隐式推理:典型的如LLM GPT系列。这些模型可以给出基于理解的回答,因为它们利用了在训练过程中隐性学习的模式和信息(patterns and information)。
  • 显示推理:对已有的知识库/数据库进行查询或检索(类似于专家模型)

5.5.2 逻辑智能体 Logic Agent

逻辑智能体是系统中的一个组件,能够在处理数据时进行逻辑推理,或是解决逻辑推理相关的任务
基础模型(如GPT4)的局限性:虽然能够进行某种程度上的推理,但是其生成的回答是基于大量语料中学习到的pattern,而不是遵从清晰的逻辑规则或是对逻辑的理解。
可能的解决方法:在架构中嵌入一个独立的逻辑子模块。该方法通过将文本解析成逻辑段,并显式地对令牌嵌入中的逻辑层次建模,来修改LLM在预训练期间使用的令牌嵌入过程。

6. Agent AI 的应用任务

6.1 游戏

游戏为测试LLM和VLM的智能体行为提供了一个独特的沙盒环境,能够测试其合作及决策能力。

  1. NPC行为:通过LLM/VLM赋予NPC自主性和适应性,是游戏体验更加的不可预测、更沉浸式。
  2. 游戏场景合成:让LLM/VLM学习物品防止规则、设计学、光影能够进一步提升场景生成的质量。

6.2 机器人

  • 任务规划:VLM、LLM
  • 低层控制:强化学习、模仿学习、Learing-from-Observation

img

6.3 医疗 Health Care

6.4 多模态智能体 Multimodal Agents

6.4.1 图像-语言 理解和生成

多模态智能体需要识别图像中的对象,还要理解它们的空间关系,生成关于场景的准确描述性句子,并利用推理技能来处理知识密集型视觉推理。

6.4.2 视频-语言 理解和生成

  • 视频-语言生成:视频字幕/视频故事讲述是为一段视频帧生成连贯的句子。该领域的一个重要目标是创建一个agent-aware的文本合成模型,可以有效地编码帧序列,并生成一个主题连贯的多句段落。
  • 视频理解:视频理解将图像理解的范围扩展到动态视觉内容。这涉及到对视频中帧序列的解释和推理,通常与伴随的音频或文本信息相结合。智能体应该能够与各种视觉、文本和音频形式进行交互,以展示他们对视频内容的高级理解。该领域中的任务包括视频字幕、视频问答和活动识别等。视频理解的领导者是多方面的。它们包括视觉和语言内容的时间对齐,长序列帧的处理,以及随着时间的推移展开的复杂活动的解释。关于音频,智能体可以处理语音、背景噪音、音乐和语调,以理解视频内容的情绪、设置和微妙之处。

6.6 用于自然语言处理的智能体 Agent for NLP

文章提出了三个具体的方向,用于改善基于语言的智能体:

  1. 工具使用和查询知识库:此方向强调将外部知识库、网络搜索或其他有用的工具集成到人工智能代理的推理过程中
  2. 提升智能体的推理能力和规划能力 (reasoning and planning):这涉及到开发能够理解复杂指令、推断用户意图和预测潜在未来场景的模型。可能的解决方式:
    • 让模型反思过去的行为和错误
    • 将智能体的思维过程建模成一系列搜索
  3. 协同系统和人类的反馈

6.6.3 Instruction-following LLM 智能体

根据指令的生成方式可以分为:

  • 人工标注:RLHF(Reinforcement Learning with Human Feedback)
  • 在指令/回答对(instruction/response pairs) 上训练来进行指令微调

img

7. Agent AI Across Modalities, Domains and Realities

7.1 跨模态理解 Cross-modal understanding

  • 现有做法:单独训练语言模型、视觉模型,然后将冷冻的各个子模块整合到一起。
  • 更好的做法:同时对视觉模型、语言模型进行微调。

7.2 跨领域理解 Cross-domain understanding

  • 现有做法:将通用大模型微调以适应特定的领域。
  • 缺点:无法捕获领域间的相似性,同时训练的数据集变小了。

7.4 Sim to Real Transfer 从仿真到现实的转换

具身智能尤其是基于强化学习政策的,同时是在仿真环境下进行的,将其用于执行现实任务是通常会遇到困难。
为了解决该问题,有如下方法:

  • 域随机化 Domain randomization
  • 域适应 Domain adaptation
  • 提升仿真技术 improvement of simulation

  

 参考资料:https://blog.csdn.net/wqxwy/article/details/144021713

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/860960.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一些数学证明

货舱选址问题 结论:发现对于一些数轴上的点,想要让其和某一点的距离之和最小,要取中位数(偶数/奇数都可以取n/2计算)

【PHP应用】使用http通道连接数据库

#Navicat #PHP #MySQL 办公网和内网的网络并不是完全互通的,內网只支持特定端口范围供办公网访问,因此如果数据库的端口不在这个端口范围内,那么就无法在mac上使用mysql客户端连接内网的数据库。 在开发过程中,有很多要连接的数据库,有的端口在特定端口范围,有的不在,平…

【JAVA代码审计】华夏ERP_V2.3

免责声明 由于传播、利用本公众号菜狗安全所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,公众号菜狗安全及作者不为此承担任何责任,一旦造成后果请自行承担!如有侵权烦请告知,会立即删除并致歉。一、项目介绍二、项目搭建三、漏洞挖掘3.1 多处sql…

基坑监测识别摄像机

基坑监测识别摄像机的应用能够有效监控基坑施工的过程,提高施工的安全性和效率。同时,它也能减少施工事故的发生,降低施工风险,保障工程的正常进行和人员的安全。总之,基坑监测识别摄像机是一种有益的施工监测工具,可以有效保障基坑施工的安全和稳定,提高施工质量和效率…

微服务架构设计模式PDF免费下载

世界十大软件架构师之一、微服务架构先驱者亲笔撰写,微服务实用落地指南。示例代码使用Java编程和Spring框架适读人群 :本书的重点是架构和开发,适合负责开发和交付软件的任何人(例如开发人员、架构师、 CTO等)阅读。示例代码使用Java语言和Spring框架 世界十大软件架构师…

在抖音发现有一个大一新生求期末作业,顺手做了一下(C语言 学生考勤)

这三个要求很简单 但是这个考核,要求课程结束后,自动完成考核要求有点模糊#include <stdio.h> #include <string.h> #define MAX_STUDENTS 10 #define MAX_CLASSES 4 #define MAX_NAME_LENGTH 50typedef struct {char name[MAX_NAME_LENGTH];char gender[10];int…

Python编程快速上手:让繁琐工作自动化(第2版)PDF免费下载

Python编程从入门到实践姊妹篇,零基础自学Python教程书籍,提供配套同步教学视频、在线编程环境!针对Python3.X版本更新适读人群 :本书适合任何想要通过Python学习编程的读者,尤其适合缺乏编程基础的初学者。通过阅读本书,读者将能利用非常强大的编程语言和工具,并且体会…

几页画作

时长由于自己过于菜而痛不欲生而产生画画灵感……时光花火,水月星辰

学业之船航海记录——软工篇

这个作业属于哪个课程 https://edu.cnblogs.com/campus/fzu/SE2024这个作业要求在哪里 https://edu.cnblogs.com/campus/fzu/SE2024/homework/13315这个作业的目标 软工课程总结学号 102201118引言 上回说道,我的学业之船已在大学的海洋上行驶了一半的航程,这期间也遇到一些危…

这是篇博客

博客:软件工程实践课程回顾与总结 一、学期回顾 1.1 回顾你对于软件工程课程的想象 在学期开始之前,我对软件工程课程的期望在于提升编程能力。我想通过这门课程,能够深入了解软件开发流程中的实际操作,能够自主或协作实现开发出软件产品。 我原以为软件工程会是一个手把手…

苦尽甘来

一、学期回顾 1.1 回顾对于软件工程课程的想象 软件工程(实践者的研究方法)是一门研究如何以系统性的、规范化的、可定量的过程化方法去开发和维护软件,并运用计算机科学理论和技术以及工程管理原则和方法,按预算和进度要求开发和维护满足用户要求的软件产品的学科‌。‌在…

【杂谈】Kafka的日志段为什么不用内存映射?

什么是内存映射(Memory-Mapped File)? 内存映射(mmap)是一种将文件内容映射到内存中的技术,应用程序可以像操作内存一样对文件内容进行读写,而不需要显式地进行磁盘 I/O 操作。修改的内容会自动由操作系统同步到磁盘。 内存映射需要读取磁盘文件吗? 需要。毕竟,内存中…