“AI 程序员”席卷而来,吴恩达四步设计让 Agent 提前超越 GPT-5

a3a937b0f354680aadbaeb24f6f3767d.gif

作者 | 王启隆

出品 | AI 科技大本营(ID:rgznai100)

有不少科幻片描绘了这样的世界:数字实体执行一座城市的所有任务,人工智能可以与数字世界甚至物理世界的一切事物进行交互,不断学习和适应新环境,周围的人对此司空见惯,仿佛一切都理应如此……

现在,随着 AI Agents 的应用浮出水面,这种幻想逐渐走入了现实。Agent 可以翻译为“代理”,在 AI 领域有了“智能体“这一含义,是当前人工智能技术的发展方向,它可以代表用户执行任务并做出决策,具有高度的自主性和适应性。

7ab00e7003ae09fed06b524699ec290d.png

Devin

今年 3 月 12 日,美国创业公司 Cognition Labs 推出了号称「全球首位 AI 软件工程师」的 AI Agent —— Devin。不同于我们在前两年看到的 GitHub Copilot 等 AI 编程助手,Devin 并非单纯辅助的角色,而是能够完全独立、端到端地完成整个开发项目,包括从编写代码、修复 Bug 到最终执行的完整编程生命周期。

随后的这两个月里,无数的 Devin 模仿者横空出世。无论闭源到开源,每一位都强调要“对标 Devin”,甚至每一位都只能叫做“Devins”或是“类 Devin 工具”掀起了一股 Agent 浪潮:

  • OpenDevin3 月 13 日(Devin 发布第二天)首次出现的 Devin 克隆版本

https://github.com/OpenDevin/OpenDevin

  • AutoDev:同样在 3 月 13 日,微软按捺不住提交了一篇关于全自动软件开发框架的论文,还介绍了多智能体协同(Multi-Agent)的概念。

https://arxiv.org/pdf/2403.08299.pdf

  • AutoCoder:国人祝威廉的团队在 3 月 18 日首次发布的命令行版 Devin

https://github.com/allwefantasy/auto-coder

  • Devika:在 3 月 21 日问世的 Devin 开源竞品

https://github.com/stitionai/devika

  • 通义灵码4 月 2 日上岗,阿里的首个 AI 编程程序员。

  • SWE-agent:普林斯顿大学发布于 4 月 3 日的软件工程 Agent,开源

https://github.com/princeton-nlp/SWE-agent

  • Replit Teams:初创公司 Replit 将在 4 月 9 日发布的 Devin 竞品

……

此外,还有许多早于 Devin 诞生的 Agent。比如张海龙的 Babel,是 Devin 的直接竞品,其团队更是目前国内唯一一个聚焦 Coding Agent 的初创企业。

GPT-Pilot,这一开源项目在 GitHub 已有 27k 的 star,早在 2023 年便已经问世。

https://github.com/Pythagora-io/gpt-pilot

Plandex 则是一款 AI 编程引擎,借 Agent 将复杂任务分解为数个小任务。

https://github.com/plandex-ai/plandex

随着类 Devin 工具的“扎堆”发布,编程领域的 Agent 已经为所有开发者展现了强大的能力。但想实现真正的 AGI(通用人工智能),只让 Agent 会编程显然还是不够的,除了“AI 程序员”,我们还需要各司其职的其他 Agent(比如“AI 数据科学家”、“AI 物理学家”、“AI 技术委员会”……)协同工作。

e3195df03ddb42b01cbe0d8cfc88cce4.png

八篇论文

最近,机器学习先驱、Google Brain 联合创始人、斯坦福大学计算机科学系和电气工程系的客座教授吴恩达 (Andrew Ng) 在红杉资本的 AI Ascent 活动上发表了一场演讲,大谈 AI Agents。

77a43233fb479d65bcc4dffcf5c1a3fe.png

吴恩达(最右)和 AI 领域的“三大教父”

如今,每个人工智能产品都有其局限性,但吴恩达认为,在精心设计的 Agent 工作流程(workflow)中使用多个 Agent,可以在现有模型中产生“次时代”级别的性能。所以,基于 GPT-3.5 构建的 Agent 工作流程,在应用中的表现能比 GPT-4 要好。同理,GPT-4 + Agent > GPT-5。

为了驱动 AI Agents 工作流程的重大进展,吴恩达在演讲中提出了四种设计模式:反思、运用工具、规划、多智能体协同。每种设计模式引用了两篇论文,一共八篇

  • 反思(Reflection)

你或许曾遇到过与 ChatGPT / Claude / Gemini 交流时,对初次得到的答案并不满意,通过提供有针对性的反馈帮助 LLM 改进回应,从而获得更好答案的情况。设想一下,如果能够自动化反馈这一环节,让模型自行检视其输出并据此改进,这就构成了“反思”的实质。

《自我完善:利用自我反馈的迭代细化技术》

https://arxiv.org/pdf/2303.17651.pdf

0dc72d7f00e39b3922abc94d5d8cb191.png

这篇论文的主要思想是利用大语言模型(LLM)生成初步输出,然后让该 LLM 对自己的输出提供反馈,并以此为基础进行迭代优化。他们的研究表明,即便是像 GPT-4 这样的尖端大语言模型,也可以通过我们这种简洁独立的方法在测试阶段进一步提升性能。自我完善(SELF-REFINE)全程都在单一 LLM 内运行,既不需要额外的训练数据,也不依赖强化学习。

《Reflexion:借助口头强化学习的语言智能体

https://arxiv.org/pdf/2303.11366.pdf

48b4f69dabfb6f83a969803777d8e11a.png

论文作者提出了一种名为“Reflexion”的新框架,它不是通过更新权重来强化语言智能体,而是通过语言反馈来实现。具体来说,“Reflexion”智能体会对任务反馈信号进行口头反思,并将其自身的反思文本存储在一个事件记忆缓冲区中,以便在后续试验中引导更好的决策制定。

在 HumanEval 编码基准测试中,Reflexion 取得了 91% 的一次性通过准确率,超过了先前最先进的 GPT-4 所达到的 80% 水平。

  • 运用工具(Tool use)

LLMs 不仅能够生成文本,还能动态生成并执行代码片段来解决问题或获取信息,集成工具和功能,实现跨不同领域的信息处理与操作,显著提升工作效率和个人生产力。

早先关于工具使用的探索,在很大程度上受到了计算机视觉研究的启发。因为在大语言模型具备处理图像能力之前,它们局限于文本和语言的理解与生成。因此,研究人员促使 LLMs 生成能与图像交互的函数代码,如图像生成或目标识别等任务。

回顾相关文献,我们会发现许多工具使用的研究案例最初是在视觉应用上取得突破,因为当时的 LLMs 尚不具备直接处理图像信息的能力。随着 GPT-4 和 LLaMA 等更强大模型的出现,LLMs 开始与各类工具紧密结合,从而拓宽了其应用场景,实现了对非文本信息资源的有效利用。

《Gorilla:与海量 API 连接的大语言模型》

https://arxiv.org/pdf/2305.15334.pdf

7ccbef9bcfaaceed3b5319b3ce29b48b.png

Gorilla 是一个基于 LLaMA 的微调模型,在编写 API 调用方面超越了 GPT-4 的性能。当 Gorilla 模型与文档检索系统相结合时,展现了强大的适应能力,能够灵活应对测试期间文档的变更,支持用户进行及时更新或版本切换。同时,它极大地减少了直接提示 LLMs 时常遇到的幻觉问题。为了评估模型在这方面的能力,我们构建了一个全面的数据集——APIBench,该数据集包含了 HuggingFace、TorchHub 和 TensorHub 等 API 的示例。

MM-REACT:面向多模态推理与行动的 ChatGPT 提示式交互

https://arxiv.org/pdf/2303.11381.pdf

523460333d9e395c00215c6400e91cab.png

MM-REACT 是一种由众多视觉专家模块与 ChatGPT 组成的系统范例,用于多模态推理和行动。它提供了一种简单而灵活的方法,为 LLMs 提供视觉专家模块库。

为了实现这种高级的视觉智能,MM-REACT 引入了一种文本提示设计方法,该方法可以表示文本描述、文本化空间坐标以及与密集视觉信号(如图像和视频)对齐的文件名。这样设计的提示使得语言模型能够接收、关联并处理多模态信息,从而促进了 ChatGPT 与各种视觉专家模块之间的协同配合。

  • 规划(Planning)

吴恩达曾经进行过现场演示,AI Agents 会重新规划路径来规避失败。他曾经从一篇关于 GPT 模型的论文中改编过一个例子,即让 GPT 生成一张女孩正在读书的图片,与图片中的男孩姿势一致。利用现有的 AI Agents,我们可以决定首先确定男孩的姿势,然后在 HuggingFace 上找到合适的模型来提取姿势。接下来,只需要找到一个后处理图像的模型,合成一张根据指令的女孩的图片,然后使用图片转化为文本,最后使用文本转化为语音的技术……

如今 Agent 在面对挑战时能灵活调整策略,即便偶有失败也能从中恢复,已在实践中被用于加速研究与决策过程,成为个人工作流程中不可或缺的部分。

《思维链提示引发了大语言模型中的推理能力》

https://arxiv.org/pdf/2201.11903.pdf

903a21d43c385057df4d02480b807175.png

大名鼎鼎的《思维链》开山之作

仅靠增大模型规模并不足以确保大型语言模型在诸如算术、常识推理和符号推理等复杂任务上取得高水准表现。因此,Jason Wei 等人在论文中呈现了一系列实证评估,于算术、常识及符号推理基准测试中表明,思维链提示法相较于标准提示法表现出更优性能,有时甚至显著提升。

对于许多采用标准提示法其性能随模型规模增长而趋于平缓的推理任务而言,采用思维链提示法则能够显著提高规模增长曲线,带来性能上的大幅提升。

《HuggingGPT:借助于 ChatGPT 的强大语言能力和 Hugging Face 中丰富的 AI 模型

https://arxiv.org/pdf/2303.17580.pdf

f94b0a3691d30aa891e591809a7d83f8.png

HuggingGPT 能够解决一系列跨越不同模态和领域的复杂 AI 任务,并在语言、视觉、语音以及其他难题上取得令人瞩目的成果,为实现通用人工智能开辟了全新途径。HuggingGPT 的机制是通过 LLM 组织模型间的协作,使其能够应对任何模态或任何领域中的任务。

只需提供模型描述,HuggingGPT 就能够不间断地便捷整合来自AI社区的各种专家模型,无需改变任何结构或提示设置。

a285c30393aa3105efba3206c2744ec9.jpeg

  • 多智能体协同(Multi-agent collaboration)

顾名思义,让多个模拟的 AI Agents 协同工作。

《用于软件开发的通讯智能体 ChatDev》

https://arxiv.org/pdf/2307.07924.pdf

be55680432b05903ffe87218f424f0f3.png

ChatDev 在软件生成方面的工具性分析显示,其能够在不到七分钟的时间内以低于一美元的成本完成整个软件开发流程。在每个开发阶段,ChatDev 都会调动多个具有不同职责的“软件智能体”,如程序员、审查员和测试员。

在聊天链中,每一个节点代表一个特定的子任务,两个角色根据上下文进行多轮互动讨论,提出并验证解决方案。因此,这项技术特别适用于开放且创新性强的软件生产场景,在这些场景中,允许一定程度的变化和多样性。

d6932d7732b550336ca1ecd3aec3914a.jpeg

《AutoGen:通过多智能体对话实现下一代 LLM 应用》

https://arxiv.org/pdf/2308.08155.pdf

51aebfe300aebbfa829ad8e324c59202.png

鉴于可以从 LLMs 受益的任务范围不断扩大以及任务复杂性的日益增长,当前有一种直观的提升智能体能力的方法,那就是采用能相互协作的多个智能体

实践中,不同复杂程度的应用可能需要具备特定能力的不同智能体集合,并且可能要求不同的对话模式,例如单轮或多轮对话,不同程度的人类介入方式,以及静态与动态对话过程。

当配置得当时,一个智能体能够自主地与其他智能体进行多轮对话,或者在特定环节中征求人类输入,从而实现了人机协作与自动化

AutoGen 的采用已经带来了性能上的提升(超过了现有最先进的方法),减少了开发代码量,并减轻了现有应用的手动负担。随着研究者对 AutoGen 的进一步开发和完善,他们的目标将是研究诸如智能体拓扑结构和对话模式等策略,如何引导出最有效的多智能体对话,同时优化整体效率和其他相关因素。

bc44bd22388742a144250fa275fe511a.gif

4 月 25 ~ 26 日,由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行,特邀近 50 位技术领袖和行业应用专家,与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。欢迎所有开发者朋友访问官网 http://ml-summit.org、点击「阅读原文」或扫码进一步了解详情。

9b58026884598293fa7741f98ea4b32d.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/671015.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

安卓应用开发(一):工具与环境

开发工具 Android Studio,用于开发 Android 应用的官方集成开发环境 (IDE)。包括以下功能: 基于Gradle的构建系统 gradle是一个项目构建工具,将源工程打包构建为apk 安卓模拟器统一环境代码编辑模拟器实时更新Github集成Lint功能&#xff0…

AIGC-音频生产十大主流模型技术原理及优缺点

音频生成(Audio Generation)指的是利用机器学习和人工智能技术,从文本、语音或其他源自动生成音频的过程。 音频生成行业是AIGC技术主要渗透的领域之一。AI音频生成行业是指利用人工智能技术和算法来生成音频内容的领域。按照输入数据类型不同可以分为:根…

[qnx] 通过zcu104 SD卡更新qnx镜像的步骤

0. 概述 本文演示如果给Xlinx zcu104开发板刷入自定义的qnx镜像 1.将拨码开关设置为SD卡启动 如下图所示,将1拨到On,2,3,4拨到Off,即为通过SD启动。 2.准备SD卡中的内容 首先需要将SD格式化为FAT32的(如果已经是FAT32格式,则…

微信小程序原生代码实现小鱼早晚安打卡小程序

大家好,我是雄雄,欢迎关注微信公众号:雄雄的小课堂 小鱼早晚安打卡小程序:开启健康生活,共享正能量 在这个快节奏的时代,我们常常被各种琐事和压力所困扰,以至于忽略了对健康生活方式的追求。然…

JRT1.6发布

经过51的三天努力,完成基于JRT的质控核心部分。框架部分已经达到了第一个可生产版本。 可生产包括以下部分: 1.Web开发基础和发布运维基础 2.Linux和WIndows客户端浏览器 3.Linux和WIndows客户端打印导出程序 4.Linux和WIndows初始化程序 5.Linux和WInd…

i.MX 6ULL 裸机 IAR 环境安装

一. IAR 的安装请自行搜索 二. 使用最新版本的 IAR,需要修改 SDK 1. 在 SDK 的 core_ca7.h 加上 #include "intrinsics.h" /* IAR Intrinsics */ 2. debug 时需要修改每个工程下的 ddr_init.jlinkscript,参考链接 Solved: How to conn…

大厂Java面试题:MyBatis是如何进行分页的?分页插件的实现原理是什么?

大家好,我是王有志。 今天给大家带来的是一道来自京东的关于 MyBatis 实现分页功能的面试题:MyBatis是如何进行分页的?分页插件的实现原理是什么?通常,分页的方式可以分为两种: 逻辑(内存&…

智慧园区综合物业管理平台解决方案PPT(130页精品)

我们对智慧园区的理解 智慧园区,是通过信息技术和各类资源的整合,充分降低企业运营成本,提高工作效率,加强各类园区创新、服务和管理能力,为园区铸就一套超强的软实力。智慧园区的实现是多技术融合、多系统融合、多领域…

苹果挖走大量谷歌人才,建立神秘人工智能实验室;李飞飞创业成立「空间智能」公司丨 RTE 开发者日报 Vol.197

开发者朋友们大家好: 这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…

从简单逻辑到复杂计算:感知机的进化与其在现代深度学习和人工智能中的应用(上)

文章目录 引言第一章:感知机是什么第二章:简单逻辑电路第三章:感知机的实现3.1 简单的与门实现3.2 导入权重和偏置3.3 使用权重和偏置的实现实现与门实现与非门和或门 文章文上下两节 从简单逻辑到复杂计算:感知机的进化与其在现代…

ESG视角下的多期DID构建(2009-2022年)4.5万+数据

随着ESG信息越来越受到重视,一些第三方评级机构开始推出ESG评级产品,目前在第三方数据库能够查到华证、富时罗素、商道融绿、社会价值投资联盟以及Wind自有的ESG评级数据等。其中,商道融绿是中国最早发布ESG评级数据的机构,也是国…

【Linux 基础 IO】文件系统

文章目录 1.初步理解文件2. fopen ( )的详解 1.初步理解文件 🐧① 打开文件: 本质是进程打开文件; 🐧②文件没有被打开的时候在哪里呢? ----- 在磁盘中; 🐧③进程可以打开很多个文件吗&#xff…