什么是工具? 从语言模型视角的综述

24年3月CMU和上海交大的论文“What Are Tools Anyway? A Survey from the Language Model Perspective”。

到底什么是工具? 接下来,工具在哪里以及如何帮助语言模型? 在综述中,对语言模型使用的外部程序工具进行了统一定义,并对语言模型工具场景和方法进行了系统回顾。 测量各种基准上所需的计算和性能增益,以及该领域的挑战和潜在的未来研究,本文实证研究了各种工具方法的效率。

首先提出工具的统一定义,并解释为什么工具有助于解决任务。 介绍基本的工具使用范例,并通过枚举存在哪些工具以及它们适用于哪些任务来研究各种工具使用场景。 接下来,研究复杂工具使用的高级方法,甚至在无法完成任务时制作新工具。 然后,总结LM 工具工作中的现有测试平台和评估指标,并通过具体的指标建议强调了几个缺失的方面。 最后,根据对工具何时有效的实证分析,确定了最有效的工具方法以及从工具中受益最多的任务。

工具可以以不同的方式帮助解决任务,具体取决于各个工具的功能。 工具功能总结为三大类:感知、行动和计算。 一个工具可能属于这三个类别中的一个或多个。

感知。感知工具提供或收集环境信息。 一个例子是使用 get time() API 来获取当前时间,该时间不包含在 LM 从训练中学到的参数知识中。
动作。动作工具可以对环境施加动作并改变其状态。 例如,turn left() 可以改变具身智体的方向,或者执行 make post(website, post) 可以更改网站上的内容。
计算。计算工具不一定感知或修改外部环境,而是使用程序来处理复杂的计算任务。 例如,计算器是一种用于数学计算的计算工具。 请注意,计算还包括数值计算之外的更一般的计算行为。 因此,翻译器也是一种可用于语言之间翻译的计算工具。

Russell & Norvig (2010) 将智体定义为“任何可以被视为通过传感器感知环境并通过执行器对该环境采取行动的事物”。 根据这个定义,智体是使用感知工具来感知所处环境的程序,或者是使用动作工具与环境交互的程序。 根据此定义,仅使用计算工具且不通过感知或动作工具与环境交互的模型可以说不属于“智体”类别。

为了让语言模型能够使用这种使用工具的基本范式,当前的工作主要利用推理时提示和训练时学习方法。

推理时提示利用。LM 在上下文中学习的能力(Brown,2020),许多工作通过提示提供工具信息,并期望 LM 获得从输入上下文中使用这些工具的能力。 这是通过提供有关任务的说明、查询示例对和使用工具的解决方案来实现的(Gupta & Kembhavi,2022;Lu,2023a;Paranjape ,2023;Shen,2023a;Yang, 2023)和/或工具功能的文档(Hsieh,2023)。
通过训练学习。除了从测试时环境中学习工具之外,LM 还可以从训练期间使用这些工具的示例中学习。 可以简单地训练语言模型来生成使用工具的解决方案,其中示例可以由人类手动注释(Li et al., 2023),并由更大的教师语言模型合成(Tang, 2023;Qin, 2024; Huang,2024),或由测试时 LM 本身引导(Schick,2023)。

如图所示:相对于基本 LM 或基本动作,工具可以引用内置函数、外部库或特定于任务的实用函数(从左到右)。

添加图片注释,不超过 140 字(可选)

现有的工具基准测试只能受益于有限的工具集,但可以利用更多的工具来执行现实世界中的多功能任务,特别是由人类开发人员创建的网络上开发API 工具。 因此,最近的许多工作聚集来自各种网络来源的 API 工具,并创建了使用这些 API 的基准,如表所示。

添加图片注释,不超过 140 字(可选)

利用工具通常会带来更好的性能,但是,应该总用工具吗? 更具体地说,使用工具所带来的性能提升是否值得 LM 学习使用工具所花费的计算成本,或者测试的推理成本? 现有的工作主要关注任务准确性,但当考虑到其他因素时,就会出现更微妙的情况。 根据下表中实验数据集的计算成本和性能增益,研究了各种方法的性能增益和学习成本,发现了从工具中受益并更有效(即用更少的计算实现更大的增益)的方法和任务。

添加图片注释,不超过 140 字(可选)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/700948.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【RAG 论文】UPR:使用 LLM 来做检索后的 re-rank

论文:Improving Passage Retrieval with Zero-Shot Question Generation ⭐⭐⭐⭐ EMNLP 2022, arXiv:2204.07496 Code: github.com/DevSinghSachan/unsupervised-passage-reranking 论文:Open-source Large Language Models are Strong Zero-shot Query…

智慧公厕系统:改变“上厕所”体验的科技革新

公共厕所是城市建设中不可或缺的基础设施,然而,由于较为落后的管理模式,会常常存在着管理不到位、脏乱差的问题。为了改善公厕的使用体验,智慧公厕系统应运而生,并逐渐成为智慧城市建设的重要组成部分。本文将以智慧公…

“打工搬砖记”中首页的功能实现(一)

文章目录 打工搬砖记秒薪的计算文字弹出动画根据时间数字变化小结 打工搬砖记 先来一个小程序首页预览图,首页较为复杂的也就是“秒薪”以及弹出文字的动画。 已上线小程序“打工人搬砖记”,进行预览观看。 秒薪的计算 秒薪计算公式:秒薪 …

特产销售|基于Springboot+vue的藏区特产销售平台(源码+数据库+文档)​

目录 基于Springbootvue的藏区特产销售平台 一、前言 二、系统设计 三、系统功能设计 1系统功能模块 2管理员功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取: 博主介绍:✌️大厂码农|毕设布道…

Golang SDK安装

windows环境安装 1.链接: 下载地址 2.安装SDK 检查环境变量: 3.开启go modules,命令行执行一下命令: go env -w GO111MODULEon4.设置国内代理,命令行执行一下命令: go env -w GOPROXYhttps://proxy.golang.com.cn,https:/…

如何使用恢复模式修复Mac启动问题?这里提供详细步骤

如果你的Mac无法启动,不要惊慌,Mac有一个隐藏的恢复模式,你可以使用它来诊断和修复任何问题,或者在需要时完全重新安装macOS。以下是如何使用它。 如何在Mac上启动到恢复模式 你需要做的第一件事是启动到恢复模式。尽管操作说明会因你使用的Mac电脑而异,但幸运的是,启动…

14.正交向量与子空间

文章目录 1. 四个子空间的相互关系2. 正交向量3. 无解方程求解 1. 四个子空间的相互关系 对于m行n列的矩阵A来说,矩阵A的行空间的秩等于矩阵A的列空间的秩 R a n k ( A ) R a n k ( A T ) r (1) Rank(A)Rank(A^T)r\tag{1} Rank(A)Rank(AT)r(1) A X 0 ; A T X …

EFCore_创建项目

添加依赖 Microsoft.EntityFrameworkCore Microsoft.EntityFrameworkCore.Tools(Migration工具) 根据使用的DB添加对应依赖: SQL Server:Microsoft.EntityFrameworkCore.SqlServer 添加该依赖时可不添加Microsoft.EntityFrameworkCore,该依…

安全工程师基础模拟试题

安全工程师基础模拟试题作为一名安全工程师,掌握基本的安全知识和技能是必不可少的。下面是一些基础模拟试题,帮助您检验自己的安全工程师能力。1.在网络安全中,什么是… 1安全工程师基础模拟试题 作为一名安全工程师,掌握基本的…

【目标检测】YOLOv5|YOLOv8模型QT界面可视化部署

YOLO-Deploy-QT_Interface 最近笔者做了YOLO系列算法的部署工作,现做一个总结。主要工作是做了用于部署YOLOv5和YOLOv8的可视化QT界面,可实现图片、文件夹、视频、摄像头的ONNX与OpenVino部署,具体效果如下: 代码链接&#xff1…

FreeRTOS事件标志组

目录 一、事件标志组的概念 1、事件标志位 2、事件标志组 二、事件标志组相关API 1、创建事件标志组 2、设置事件标志位 3、清除事件标志位 4、等待事件标志位 三、事件标志组实操 1、实验需求 2、CubeMX配置 3、代码实现 一、事件标志组的概念 1、事件标志位 表…

【瑞萨RA6M3】1. 基于 vscode 搭建开发环境(后续)

编译 mkdir build cd build cmake .. -G"Unix Makefiles" make -j或者 cmake -Bbuild -G"Unix Makefiles" cmake --build build创建快捷指令: 删除 .vscode/tasks.json, 存储占用和生成 MAP 编译完成后,打印内存占用…