Agent Workflows(智能体工作流)

1.目前使用LLM的方式

        目前,我们主要在零样本模式下使用大型语言模型(LLM),通过提供提示(prompt),模型逐词(token)地构建最终的输出内容,其间并未实施任何操作。这一过程可以类比为要求一个人不间断地从文章开头连续键入至结尾,且不许回撤修改,却期待得到高水准的成品。即便面临这样的挑战,LLM 在完成此类任务时仍展现出了卓越的能力!

2.智能体迭代工作流——新的使用LLM的方式

然而,我们具备实现迭代优化的能力。借助智能体工作流,我们可以引导LLM对文档进行多次递进式的创作与完善。比如,它可以遵循以下系列行动:

  1. 制定初步的文章结构和大纲;
  2. 智能判断是否有必要进行网络检索以获取更多相关素材;
  3. 编写文章的初版内容;
  4. 对初稿进行全面审阅,识别并剔除不合逻辑的观点或无关细节;
  5. 基于审阅结果修订和完善稿件;
  6. 以及更多的后续步骤……

这个反复修正的过程对于人类作者创作高质量文本是不可或缺的,而对于人工智能而言,采用这样循环的工作流程通常能够显著提升单一一次性生成文本的质量。

对于人工智能来说,这种迭代工作流会比单次编写产生更好的结果。

3.性能比较

最近, Cognition AI 团队所研发并推出的首个人工智能软件工程师 Devin,在社交媒体平台上引发了热烈反响。吴恩达的团队持续追踪 AI 编程技术的进步动态,并对多个研究组的成果进行了深入剖析,其中特别重视算法在业界广泛采用的 HumanEval 编码基准测试中的性能展现。

吴恩达的研究团队发现:在零样本模式下,GPT-3.5模型的准确率为48.1%;而其后继者GPT-4则表现更好,达到了67.0%的正确率。尽管如此,相较于通过迭代智能体工作流程的应用,单纯从模型本身的性能升级来看,从GPT-3.5过渡到GPT-4带来的提升相对有限。值得注意的是,在应用了智能体迭代工作流时,GPT-3.5或GPT-4展现出了显著的优势,其正确率跃升至高达95.1%的程度。结果对比如下图所示。

4. 构建智能体工作流的设计模式

开源智能体工具和有关智能体的研究论文正在激增,这是一个令人兴奋的时刻。为了更好地帮助大家理解和评价相关工作,吴恩达提出了一个关于智能体构建策略的分类体系。

简明概括起来,此体系涵盖了以下几个核心组成部分:

  1. 自我审查与反馈:智能体运用自身的大型语言模型能力对已完成的任务进行评估,并据此制定改进策略。
  2. 工具使用能力:智能体能够利用诸如网络搜索、代码执行等手段辅助自身获取信息、执行动作和处理数据资源。
  3. 规划与执行:智能体会设计并实施一套包含多个步骤的行动计划,以便达成既定目标,如先构思论文提纲,接着进行线上调研,最后形成文稿草案等环节。
  4. 多智能体协同作业:不同AI智能体间相互协作,分工合作,通过讨论、交流甚至竞争性思维碰撞来共同寻求优于单个智能体所能产生的解决方案。

吴恩达透露,AI Fund已在多种应用场景中成功应用了这些设计模式,并将在后续讨论中进一步详解这些模式的具体实践与成效。

参考链接:

https://twitter.com/AndrewYNg/status/1770897666702233815

https://www.deeplearning.ai/the-batch/issue-241/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/564644.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【新手教程】mmselfsup训练教程及常见报错处理

mmselfsup教程 1.安装mmselfsup2.了解文件结构与配置3.训练常见报错1.报错:FileNotFoundError: [Errno 2] No such file or directory:data/imagenet/train/./train/n04311004/images/n04311004_194.JPEG2.报错:报错ImportError: /mmcv/_ext.cpython-38-…

IT运维服务规范标准与实施细则

一、 总则 本部分规定了 IT 运维服务支撑系统的应用需求,包括 IT 运维服务模型与模式、 IT 运维服务管理体系、以及 IT 运维服务和管理能力评估与提升途径。 二、 参考标准 下列文件中的条款通过本部分的引用而成为本部分的条款。凡是注日期的引用文件&#xff0c…

由浅到深认识Java语言(7):方法(函数)

该文章Github地址:https://github.com/AntonyCheng/java-notes 在此介绍一下作者开源的SpringBoot项目初始化模板(Github仓库地址:https://github.com/AntonyCheng/spring-boot-init-template & CSDN文章地址:https://blog.c…

C语言——sizeof与strlen的对比

一.sizeof 我们在学习操作符的时候&#xff0c;就了解到了sizeof操作符&#xff0c;它的作用是求参数所占内存空间的大小&#xff0c;单位是字节。如果参数是一个类型&#xff0c;那就返回参数所占的字节数。 #include <stdio.h>int main() {int a 10;size_t b sizeo…

GEE入门及进阶教程|在 Earth Engine 中过滤图像集合

Earth Engine API 为 ImageCollection 类型提供了一组过滤器&#xff0c;过滤器可以根据空间、时间或属性特征来限制 ImageCollection&#xff0c;即可将图像从 ImageCollection 中分离出来以进行检查或操作。 图1 1 Earth Engine 中应用于图像集合的过滤、映射…

AugmentedReality之路-创建工程及主界面(1)

本文从零创建1个工程&#xff0c;并添加1个BasicMap和1个主界面&#xff0c;主界面包含Start AR和Stop AR两个按钮 1、创建移动端工程并打包运行 创建1个空工程&#xff0c;选择C&#xff0c;Mobile&#xff0c;Scalable&#xff0c;勾选StarterContent 通过Edit->Proje…

云原生网络魔术师:Docker高级网络实战演练与深度解析

在Docker的世界中&#xff0c;网络无疑是一块充满魔力的土地。当我们超越了基础的网络配置&#xff0c;步入Docker高级网络领域时&#xff0c;你会发现一个全新的、强大而灵活的网络模型正在等待你的探索。本文将带你亲历Docker高级网络实战操作&#xff0c;揭开overlay网络、自…

【数据分享】2012-2023年中国范围的逐年NPP/VIIRS夜间灯光数据(免费获取)

在之前的文章中我们分享了2012-2023年全球范围逐年NPP/VIIRS夜间灯光数据&#xff08;可查看之前的文章获悉详情&#xff09;&#xff01;很多小伙伴在拿到数据后&#xff0c;反映数据太大了&#xff0c; 有450G&#xff0c;下载非常不方便&#xff01;这个数据的范围是全球的&…

手撕算法-删除链表的倒数第 N 个结点

描述 思路 快慢指针&#xff0c;快指针先走N步&#xff0c;走不够N步返回空。慢指针和快指针一起走&#xff0c;当快指针到达终点&#xff0c;即快指针为null时&#xff0c;慢指针到达倒数第N个节点。因为要删除倒数第N个&#xff0c;所以要记录之前的节点pre&#xff0c;假设…

Qualcomm AI Hub-示例(二)模型性能分析

文章介绍 模型性能分析&#xff08;Profiling&#xff09; 当模型尝试部署到设备时&#xff0c;会面临许多重要问题&#xff1a; 目标硬件的推理延迟是多少&#xff1f;该模型是否符合一定的内存预算&#xff1f;模型能够利用神经处理单元吗&#xff1f; 通过在云端的物理设…

从零开始学HCIA之网络基础知识02

1、TCP/IP&#xff08;Transmission Control Protocol/Internet Protocol&#xff09;参考模型&#xff0c;它是当下实际的业界标准。 2、TCP/IP这个名字来自该协议簇中两个非常重要的协议&#xff0c;一个是IP&#xff08;Internet Protocol&#xff09;&#xff0c;另一个是T…

Django 三板斧、静态文件、request方法

【一】三板斧 【1】HttpResponse &#xff08;1&#xff09;介绍 HttpResponse是Django中的一个类&#xff0c;用于构建HTTP响应对象。它允许创建并返回包含特定内容的HTTP响应。 &#xff08;2&#xff09;使用 导入HttpResponse类 from django.http import HttpResponse创…