NeurIPS 2023|AI Agents先行者CAMEL:第一个基于大模型的多智能体框架

AI Agents是当下大模型领域备受关注的话题,用户可以引入多个扮演不同角色的LLM Agents参与到实际的任务中,Agents之间会进行竞争和协作等多种形式的动态交互,进而产生惊人的群体智能效果。本文介绍了来自KAUST研究团队的大模型心智交互CAMEL框架(“骆驼”),CAMEL框架是最早基于ChatGPT的autonomous agents知名项目,目前已被顶级人工智能会议NeurIPS 2023录用。

1777dbe9073c4bcd8ab59365481bcafc.png

 

论文题目: CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society

论文链接: https://ghli.org/camel.pdf
代码链接: GitHub - camel-ai/camel: 🐫 CAMEL: Communicative Agents for “Mind” Exploration of Large Language Model Society (NeruIPS'2023) https://www.camel-ai.org
项目主页: CAMEL-AI

“什么神奇的技巧让我们变得聪明? 窍门就是没有窍门。智慧的力量源于我们巨大的多样性,而不是任何单一的、完美的原则。”
——人工智能先驱 马文·明斯基(Marvin Minsky)[1]

目前来看,在机器通向高级智能的道路上,以ChatGPT为代表的大模型(LLMs)应该是必须经过的里程碑之一,它们以聊天对话的人机交互方式在多个领域的复杂任务解决方面取得了非常耀眼的成就。随着LLMs的发展,AI Agents(AI智能体)之间的交互框架也逐渐兴起,尤其是在一些复杂的专业领域,以角色扮演等模式预置的智能体完全有能力代替人类用户在任务中扮演的角色,同时,智能体之间通过以协作和竞争形式的动态交互往往能够带来意想不到的效果,这就是被OpenAI人工智能专家Andrej Karpathy等人看作是“下一代提示工程前沿领域”的AI Agents

该领域发展的时间线如下[2]:

  • “CAMEL”(骆驼:大模型心智交互框架)- 发布于2023.3.21

  • “AutoGPT” - 发布于2023.3.30

  • “BabyGPT” - 发布于2023.4.3

  • “Westworld” simulation(斯坦福西部世界小镇) — 发布于2023.4.7

作为最早基于ChatGPT的autonomous agents知名项目,CAMEL重点探索了一种称为角色扮演(role-playing)的新型合作代理框架,该框架可以有效缓解智能体对话过程中出现的错误现象,从而有效引导智能体完成各种复杂的任务,人类用户只需要输入一个初步的想法就可以启动整个过程。目前,CAMEL已经被国际人工智能顶级会议NeurIPS 2023录用

49ac5f0e79824b6fb0efccf9be687e67.png

作者对CAMEL框架设计了灵活的模块化功能,包括不同代理的实现、各种专业领域的提示示例和AI数据探索框架等,因此CAMEL可以作为一个基础的Agents后端,支持AI研究者和开发者更加轻松地开发有关于多智能体系统、合作人工智能、博弈论模拟、社会分析、人工智能伦理等方面的应用。具体的,作者通过涉及两种角色扮演的合作场景,生成了两个大型的指令数据集AI Society和AI Code,以及两个单轮问答数据集AI Math和AI Science,用于探索LLM涌现能力的研究

01. CAMEL框架

下图展示了CAMEL中的role-playing框架,人类用户需要首先制定一个想要实现的想法或目标,例如:开发一个用于股票市场的交易机器人。这项任务涉及的角色是AI助理智能体(使其扮演Python程序员角色)和AI用户智能体(使其扮演股票交易员角色)

8fae33d32dfc4b09bfccf20cdbc4013f.png

更多技术细节,可以参考我们先前对CAMEL的报道。

02. 实验效果

本文的性能评估主要从三个方面进行,并且采用两个gpt-3.5-turbo作为实验智能体,实验的数据集使用CAMEL框架生成的四个AI数据集,其中AI Society和AI Code侧重于智能体的对话效果,而AI Math和AI Science侧重于智能体的问题解决能力。

2.1 Agent评估

在这一部分,作者从AI Society和AI Code数据集中分别随机选择 100 个任务进行评估,然后使用CAMEL框架和单个gpt-3.5-turbo进行对比实验,结果评估方面分为两部分,一方面由人类受试者对两种方法给出的解决方案给出453份投票数据,来决定哪种方案更加可行。另一方面,作者提示GPT4模型对两种方案直接给出评分,具体的对比数据如下表所示。

aadbbd5162ef4fbea0d82563fa8937e0.png

从上表中可以看出,CAMEL框架给出的解决方案在人类评估和GPT4评估中均大幅优于gpt-3.5-turbo给出的解决方案,其中人类评估和GPT4评估的总体趋势高度一致

2.2 使用GPT-4对ChatBot评估

在这一部分,作者在CAMEL生成的四个数据集上对LLaMA-7B模型进行了逐步的微调,通过向LLM中不断注入来自社会、代码、数学和科学等不同领域的知识,来观察模型对知识发现的接受效果。作者首先从AI Society数据集开始,让模型了解人类的互动常识和社会动态,随后AI Code和其他数据集的注入,模型获得了编程逻辑和语法的知识,同时拓宽了模型对科学理论、经验观察和实验方法的理解

b3ff76f0086e45dcb957cf4945bc6516.png

上表展示了模型在20个Society任务、20个代码编写任务、20个数学任务和60个科学任务上的测试效果,可以看到在每次添加数据集时,模型在已训练过的任务域上都会表现得更好。

2.3 HumanEval

为了进一步评估CAMEL框架的代码编写任务解决能力,作者在HumanEval和HumanEval+两个评估基准上进行了实验,实验结果如下表所示。

49fd4c645a9d498ebd0afdf37cba37fe.png

上表中清楚地证明了CAMEL框架的卓越性能,它不仅远远超过了LLaMA-7B模型,而且还大大超过了Vicuna-7B模型,这表明使用CAMEL生成的数据集在增强LLM处理编码相关任务方面有独特的效果。

3.CAMEL AI开源社区

值得一提的是,CAMEL作者团队正在构建了一个非常完善的CAMEL AI开源社区,社区Github仓库已经得到了3600+的star数,社区中涵盖了CAMEL中各种智能体的实现、数据生成pipeline、数据分析工具和已生成的数据集,以支持AI Agents及其他方面的研究,社区目前已吸引了诸多开源爱好者贡献代码。

距离 CAMEL 项目编写第一行代码到现在已有 9 个月,http://CAMEL-AI.org开源研究技术社区已经吸引超过 20 名来自KAUST/剑桥/索邦大学/NUS/CMU/芝加哥大学/斯坦福/杜克大学/北大/上交/哈工大/西电/东北大学/成信大以及工业界等独立代码贡献者。社区正在寻找全职/兼职/实习贡献者、工程师和研究人员加入一起学习和探索如何推动构建智能体社会的边界,杰出贡献者有机会参与框架和其他研究项目论文的撰写投稿。

如果感兴趣加入http://CAMEL-AI.org的社区,可以将简历发送至camel.ai.team@gmail.com或者添加微信号CamelAIOrg进行咨询!

微信图片_20231114145113.png

 

参考

[1] Minsky M. Society of mind[M]. Simon and Schuster, 1988.

[2] https://towardsdatascience.com/4-autonomous-ai-agents-you-need-to-know-d612a643fa92


关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/216070.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

VR全景展示,“超前点播”打开娱乐行业线上营销门户

如今,人们的生活水平正在逐步提高,这种提高不仅仅是体现在衣食住行上,更多方面是体现在大众的娱乐活动上。我们可以看到,相比于过去娱乐种类的匮乏,现如今,各种娱乐活动可谓是百家争鸣,例如温泉…

亚马逊云科技re:Invent大会:云计算与生成式AI共筑科技新局面,携手构建未来

随着科技的飞速发展,云计算和生成式 AI 已经成为了推动科技进步的重要力量。这两者相互结合,正在为我们创造一个全新的科技局面。 亚马逊云科技的re:Invent大会再次证明了云计算和生成式AI的强大结合正在塑造科技的新未来。这次大会聚焦了云计算的前沿技…

Linux(7):Vim 程序编辑器

vi 基本上 vi 共分为三种模式,分别是【一般指令模式】、【编辑模式】与【指令列命令模式】。 这三种模式的作用分别是: 一般指令模式(command mode) 以 vi 打开一个文件就直接进入一般指令模式了(这是默认的模式,也简称为一般模式)。在这个模…

【技术分享】RK3399 Ubuntu通过Python实现录音和播放功能

​本文基于IDO-SBC3968 Ubuntu 系统通过Python脚本实现录音和播放功能。 IDO-SBC3968采用RK3399国产六核64位CPU高性能处理器,支持4K HDMI2.0显示,接口丰富,拥有千兆以太网,全协议TypeC接口,USB3.0 ,eDP 和…

对 .NET程序2G虚拟地址紧张崩溃 的最后一次反思

一:背景 1. 讲故事 最近接连遇到了几起 2G 虚拟地址紧张 导致的程序崩溃,基本上 90% 都集中在医疗行业,真的很无语,他们用的都是一些上古的 XP,Windows7 x86,我也知道技术人很难也基本无法推动硬件系统和…

初始Linux系统下打印机插件配套问题

记录一下打印机跨系统跨平台的插件配套问题。 我看大多数博客的说法,都叫打印机驱动。我本人是做linux驱动开发的,总觉得这么叫不是很专业。因为厂家提供在PC上的安装包,只是实现了文档格式转换、一些配置或控制、在使用层面的功能&#xff0…

初始linux:文件操作

目录 提示&#xff1a;以下指令均在Xshell 7 中进行 linux的理念 一、echo echo "字符串" 二、输出重定向 > > [文件] echo "字符串" > [文件] echo "字符串" > > [文件] 制作大文件 三、< 输入重定向与ca…

C#关键字、特性基础及扩展合集(持续更新)

一、基础 Ⅰ 关键字 1、record record&#xff08;记录&#xff09;&#xff0c;编译器会在后台创建一个类。支持类似于结构的值定义&#xff0c;但被实现为一个类&#xff0c;方便创建不可变类型&#xff0c;成员在初始化后不能再被改变 &#xff08;C#9新增&#xff09; …

生态对对碰|华为OceanStor闪存存储与OceanBase完成兼容性互认证!

近日&#xff0c;北京奥星贝斯科技有限公司 OceanBase 数据库与华为技术有限公司 OceanStor Dorado 全闪存存储系统、OceanStor 混合闪存存储系统完成兼容性互认证。 OceanBase 数据库挂载 OceanStor 闪存存储做为数据盘和日志盘&#xff0c;在 OceanStor 闪存存储系统卓越性能…

【计算机网络笔记】数据链路层——差错编码

系列文章目录 什么是计算机网络&#xff1f; 什么是网络协议&#xff1f; 计算机网络的结构 数据交换之电路交换 数据交换之报文交换和分组交换 分组交换 vs 电路交换 计算机网络性能&#xff08;1&#xff09;——速率、带宽、延迟 计算机网络性能&#xff08;2&#xff09;…

Redis-缓存高可用集群

Redis集群方案比较 哨兵模式 性能和高可用性等各方面表现一般&#xff0c;特别是在主从切换的瞬间存在访问瞬断的情况。另外哨兵模式只有一个主节点对外提供服务&#xff0c;没法支持很高的并发&#xff0c;且单个主节点内存也不宜设置得过大&#xff0c;否则会导致持久化文件过…

从0开始学习JavaScript--JavaScript数据类型与数据结构

JavaScript作为一门动态、弱类型的脚本语言&#xff0c;拥有丰富的数据类型和数据结构&#xff0c;这些构建了语言的基础&#xff0c;为开发者提供了灵活性和表达力。本文将深入探讨JavaScript中的各种数据类型&#xff0c;包括基本数据类型和复杂数据类型&#xff0c;并介绍常…