大模型Agent最新论文及源码合集,覆盖构建、应用、评估

人们对于通用人工智能(AGI)的追求可以追溯到1950 年代中期,当时的AI研究者对机器拥有人类思维能力抱有很高的期望,但是随着研究的深入,他们发现想实现这个目标比最初设想的困难许多。到如今,AGI仍然有很长的路要走。

不过值得高兴的是,在今年的各大顶会中,有关自主智能体的研究有了许多突破性进展,以往困扰AI Agent研究者的社会交互性和智能性问题都随着大语言模型(LLM)的发展有了新的解决方向。

为方便大家了解AI Agent领域的最新研究进展,我这回整理了52篇2023最新大模型智能体相关的论文,包括LLM-based Agent 的构建、应用、评估等方面。

需要论文及源代码的同学看文末

综述(2篇)

1.A Survey on Large Language Model-based Autonomous Agents

大型语言模型基础上的自主智能体综述

简述:论文首先讨论了LLM驱动自主智能体的构建,其中,作者提出了一个统一的框架,概括了大多数已有的工作。然后,全面概述了LLM驱动自主智能体在社会科学、自然科学和工程学领域的广泛应用。最后,深入探讨了LLM驱动自主智能体常用的评估策略。在前人研究的基础上,作者同时提出了该领域的几个挑战和未来方向。

2.The Rise and Potential of Large Language ModelBased Agents: A Survey

大型语言模型驱动智能体的兴起与潜力

简述:论文首先阐述了智能体从哲学起源到在人工智能领域的发展,以及大型语言模型作为智能体基础的合理性。在此基础上,提出了一个通用的包含大脑、感知和行动模块的智能体框架,可应用于不同任务。接着探讨了智能体在单智能体、多智能体和人机协作等方面的广泛应用。此外,还讨论了智能体社会中的行为、个性、社会现象等,以及对人类社会的启示。最后,讨论了该领域的关键问题和未来方向。

构建(22篇)

1.CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society

使用交流型智能体探索大规模语言模型社会的“心智”

简述:为了解决实现自主合作的挑战,作者提出了一个称为角色扮演的新颖交流型智能体框架。该方法涉及使用开端提示来引导聊天代理完成任务,同时保持与人类意图的一致性。文中展示了如何使用角色扮演生成对话数据,以研究聊天代理的行为和能力,为调查对话语言模型提供了宝贵的资源。

2.Agent Instructs Large Language Models to be General Zero-Shot Reasoners

指示大型语言模型成为通用零样本推理者

简述:本文提出通过让一个专门设计的指导代理与大型语言模型进行互动,来指导并增强这些模型在零样本条件下的通用语言理解和推理能力,在多个数据集上的评估表明,这种方法可以推广到大多数任务,并取得了SOTA的零样本性能。

3.Reflexion: language agents with verbal reinforcement learning

反思:带有言语强化学习的语言代理

简述:这篇论文提出了一种名为 Reflexion 的新框架,通过语言反馈而不是权重更新来增强语言代理,代理会对任务反馈进行口头反思并记录在记忆中,以诱导后续试验中的更好决策。该框架在各种任务上取得明显优于基准的效果,为语言代理提供了一种快速高效的试错学习机制。

  • 4.AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

  • 5.Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph

  • 6.SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks.

  • 7.Tree of Thoughts: Deliberate Problem Solving with Large Language Models.

  • 8.AVIS: Autonomous Visual Information Seeking with Large Language Models

  • 9.Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond

  • 10.Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in Large Language Models

  • 11.Learning Distributed Representations of Sentences from Unlabelled Data

  • 12.A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity

  • 13.HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face

  • 14.Large Language Models as Tool Makers

  • 15.InternGPT: Solving Vision-Centric Tasks by Interacting with ChatGPT Beyond Language

  • 16.AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking Head

  • 17.InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning

  • 18.PandaGPT: One Model To Instruction-Follow Them All

  • 19.Visual Instruction Tuning

  • 20.MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models

  • 21.LLM+P: Empowering Large Language Models with Optimal Planning Proficiency

  • 22.Agents: An Open-source Framework for Autonomous Language Agents

应用(26篇)

1.WebArena: A Realistic Web Environment for Building Autonomous Agents

WebArena:用于构建自主代理的真实网络环境

简述:本文构建了一个高度真实可重现的网站环境,包含电商、社交、协作开发和内容管理等四个常见领域,并设计了一系列模拟人类日常互联网使用的基准任务,用来评估自主代理完成复杂语言命令的能力。实验集成了推理后行动等最近技术的代理模型,结果显示当前最先进的基于GPT-4的语言模型,在这个真实场景中的端到端任务成功率仅有10.59%,完成复杂任务仍面临巨大挑战。

2.3D-LLM: Injecting the 3D World into Large Language Models

将3D世界注入大型语言模型

简述:本文提出了一种将三维世界知识注入大型语言模型的方法,构建了一种全新的三维语言模型(3D-LLM)。这种模型可以接受三维点云及其特征作为输入,并可以执行与三维相关的各种任务,如三维字幕、三维问答、三维定位等。研究设计了三种提示机制收集了丰富的三维-语言训练数据,并利用多视图渲染的三维特征提取器和二维视觉语言模型作为骨干网络进行模型训练。

3.InterAct: Exploring the Potentials of ChatGPT as a Cooperative Agent

探索ChatGPT作为协作代理的潜力

简述:本研究论文深入探讨了OpenAI的ChatGPT与具身代理系统的集成,评估了其对交互式决策基准的影响。我们参考了人们根据自己的独特优势承担不同角色的概念,并提出了InterAct方法。在这种方法中,作者通过各种提示来喂给ChatGPT,分配它诸如检查员和分类员等多个角色,然后将它们与原始语言模型集成。研究显示,该方法在AlfWorld中取得了98%的显着成功率。

  • 4.The Hitchhiker's Guide to Program Analysis: A Journey with Large Language Models

  • 5.Do Embodied Agents Dream of Pixelated Sheep: Embodied Decision Making using Language Guided World Modelling

  • 6.SheetCopilot: Bringing Software Productivity to the Next Level through Large Language Models

  • 7.ChatLLM Network: More brains, More intelligence

  • 8.ProAgent: Building Proactive Cooperative AI with Large Language Models

  • 9.MetaGPT: Meta Programming for Multi-Agent Collaborative Framework

  • 10.ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate

  • 11.A Virtual Conversational Agent for Teens with Autism Spectrum Disorder: Experimental Results and Design Lessons

  • 12.Zero-shot Visual Relation Detection via Composite Visual Cues from Large Language Models

  • 13.Multi-Turn Dialogue Agent as Sales' Assistant in Telemarketing

  • 14.Agents: An Open-source Framework for Autonomous Language Agents

  • 15.Improving Factuality and Reasoning in Language Models through Multiagent Debate

  • 16.Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

  • 17.Multi-Agent Collaboration: Harnessing the Power of Intelligent LLM Agents

  • 18.RoCo: Dialectic Multi-Robot Collaboration with Large Language Models

  • 19.Plan4MC: Skill Reinforcement Learning and Planning for Open-World Minecraft Tasks

  • 20.ChatMOF: An Autonomous AI System for Predicting and Generating Metal-Organic Frameworks

  • 21.WebGPT: Browser-assisted question-answering with human feedback

  • 22.Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents

  • 23.Language Models as Zero-Shot Planners: Extracting Actionable Knowledge for Embodied Agents

  • 24.ScienceWorld: Is your Agent Smarter than a 5th Grader?

  • 25.CGMI: Configurable General Multi-Agent Interaction Framework

  • 26.SwiftSage: A Generative Agent with Fast and Slow Thinking for Complex Interactive Tasks

评估(2篇)

1.Evaluating Cognitive Maps and Planning in Large Language Models with CogEval

评估大型语言模型中的认知地图

简述:本文通过设计认知科学启发的CogEval评估方案,系统性评估了8个大型语言模型的认知地图和规划能力,结果发现这些模型在规划任务中存在明显的失败模式,表现出它们没有开箱即用的规划能力,可能因为不能理解规划问题背后的关系结构。

2.On the Planning Abilities of Large Language Models

关于大型语言模型的规划能力的批判性研究

简述:本文通过设计基于规划竞赛的基准测试集,系统评估了大型语言模型的自治规划、启发式规划和人机互动规划三种能力,结果显示这些模型的自治规划能力非常有限,仅达到3%的成功率,启发式和人机互动模式略有提高,因此大型语言模型的规划能力仍需进一步提高。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“智能体”获取论文+代码合集

码字不易,欢迎大家点赞评论收藏!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/139046.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安防视频监控EasyCVR平台修改默认数据为MySQL,但忘记登录密码该如何解决?

视频云存储/安防监控EasyCVR视频汇聚平台基于云边端智能协同,支持海量视频的轻量化接入与汇聚、转码与处理、全网智能分发、视频集中存储等。音视频流媒体视频监控平台EasyCVR拓展性强,视频能力丰富,具体可实现视频监控直播、视频轮播、视频录…

机器视觉、图像处理和计算机视觉:概念和区别

机器视觉、图像处理和计算机视觉:概念和区别 机器视觉、图像处理和计算机视觉是相关但有区别的概念。 机器视觉主要应用于工业领域,涉及图像感知、图像处理、控制理论和软硬件的结合,旨在实现高效的运动控制或实时操作。 图像处理是指利用…

QT中使用QVTKOpenGLNativeWidget的简单教程以及案例,利用PCLVisualizer显示点云

先添加一个带有ui的QT应用程序。 一、在ui界面中添加QVTKOpenGLNativeWidget控件 先拖出来一个QOpenGLWidget控件 修改布局如下: 然后将QOpenGLWidget控件提升为QVTKOpenGLNativeWidget控件,步骤如下: 右击QOpenGLWidget窗口,选…

FPGA project : flash_write

本实验重点学习了: flash的页编程指令pp。 在写之前要先进行擦除(全擦除和页擦除); 本实验:先传写指令,然后进入写锁存周期,然后传页编程指令,3个地址; 然后传数据&a…

项目管理之生命周期管理

项目生命周期管理矩阵是项目管理中一个重要的概念,它包括了项目从准备到收尾的各个阶段。项目生命周期管理矩阵以四个主要管理阶段为基础,分别为准备阶段、启动阶段、执行阶段和收尾阶段。这四个阶段在项目管理中有着明确的目标和职责,贯穿了…

软件工程与计算总结(十六)详细设计的设计模式

一.设计模式基础 某种意义上来说,设计模式就是设计经验的总结~ 设计模式不是简单的经验总结,更不是无中生有,它是经过实践反复检验、能解决关键技术难题、有广泛应用前景和能够显著提高软件质量的有效的经验总结。 每个模式都不是独立的&a…

Linux小程序---进度条

一&#xff1a;\r 和 \n \r --- 回车 --- 使光标回到这一行的开头 \n --- 换行 --- 会来到下一行与之平行的位置 缓冲区的问题&#xff1a; <1>: \n 的示例 正常输出 hehehehe 。 <2>: \r 的示例 为了方便观察&#xff0c;加入一个 sleep &#xff08;休眠函数…

爬虫 | 基础模块了解

文章目录 &#x1f4da;http协议&#x1f4da;requests模块&#x1f4da;re模块&#x1f407; re.I 或 re.IGNORECASE&#x1f407;re.M或 re.MULTILINE&#x1f407;re.S 或 re.DOTALL&#x1f407; re.A 或 re.ASCII&#x1f407; re.X 或 re.VERBOSE&#x1f407;特殊字符类…

docker拉取镜像错误missing signature key

参考地址&#xff1a;docker拉取镜像错误 missing signature key-CSDN博客 linux系统&#xff0c;使用docker拉取的时候&#xff0c;报错如下 missing signature key 就一阵莫名其妙&#xff0c;之前还好好的&#xff0c;突然就不行了 按照网上说的方法&#xff0c;查看doc…

基于nodejs+vue学籍管理系统

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性&#xff1a;…

git操作说明

SourceURL:file:///home/kingqi/桌面/git操作说明.doc 本地建立仓库 mkdir namebao cd namebao pwd git init 初始化 cd .git/ gedit config 本地存储 进入目录上传全部文件 git add . 提交 git commit -m “说明” 远程提交 复制gitee或者github仓库链接 可以直…

C复习-基础知识

参考&#xff1a; 里科《C和指针》Bryant, Hallaron 《深入理解计算机系统》何昊&#xff0c;叶向阳《程序员面试笔试宝典》 从hello.c到可执行文件hello 在Unix系统中&#xff0c;从源文件到目标文件的转化是由编译器驱动程序完成的&#xff1a; root> gcc -o hello hel…