复旦TravelPlanner让大语言模型挑战旅程规划

引言:探索语言智能的新疆界——旅行规划

在人工智能的发展历程中,规划一直是核心追求之一。然而,由于缺乏人类水平规划所需的多种认知基础,早期的AI代理主要集中在受限的环境中。随着大语言模型(LLMs)的出现,新一代的语言代理展现出了使用工具和推理等有趣的能力。这引发了一个问题:这些语言代理是否能够在先前AI代理无法触及的更复杂环境中进行规划?

为了深入探索这一问题,我们提出了一个新的规划基准——TravelPlanner,它专注于常见的现实世界规划场景:旅行规划。这是一个即使对人类来说也具有挑战性的任务,但大多数人在有适当工具和足够时间的情况下都能成功完成。旅行规划不仅涉及多天行程的长期规划,还包括对地点、住宿、交通、餐饮等众多相互依赖的决策。此外,旅行规划还涉及许多约束,从预算和各种用户需求的明确约束到常识性的隐性约束,例如人们不能在不使用某种交通工具的情况下瞬移到另一个城市。因此,旅行规划要求强大的主动性,以使用各种工具主动获取必要信息,并在考虑所有明确和隐性约束的同时,对收集到的信息进行深思熟虑以推进规划。

论文标题TravelPlanner: A Benchmark for Real-World Planning with Language Agents

论文链接:

https://arxiv.org/pdf/2402.01622.pdf

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核、配图后发布。

公众号「夕小瑶科技说」后台回复“智能体内测”获取智能体内测邀请链接。

语言智能与人类规划能力的比较

人类规划能力的特点

人类的规划能力是智能的标志之一,它是基于多种能力的进化成果:使用各种工具迭代收集信息并做出决策,记录中间计划(在工作记忆或物理设备上)以供审议,以及通过运行模拟探索替代计划,这又依赖于世界模型。数十年来,研究人员一直在尝试开发能够模仿人类规划能力的AI代理,但通常是在受限的环境中,因为许多人类级别规划所需的认知基础设施一直缺失。能够在人类操作的大部分不受限制的环境中稳健工作的AI代理仍然是一个遥远的目标。

语言智能在规划任务中的表现

随着大语言模型(LLMs)的出现,新一代的语言代理出现了,它们通过使用语言作为思考和交流的工具而具有特点。这些代理展示了诸如工具使用和各种形式的推理等有趣的能力,可能满足了早期AI代理所缺乏的一些认知基础设施的角色。因此,研究人员开始研究它们在从经典规划设置到体现代理和网络代理等一系列规划任务中的潜力。然而,现有工作中的规划设置仍然主要遵循传统设置,即以固定的基本事实进行单目标优化。

TravelPlanner提出了一个新的规划基准,专注于旅行规划这一常见的现实世界规划场景。这是一个即使对于人类来说也具有挑战性和耗时的任务(但大多数人可以在有正确工具和足够时间的情况下成功完成):规划多天的行程本质上是长期的,涉及大量相互依赖的决策,例如地点、住宿、交通、餐饮等。旅行规划涉及许多约束,从预算和各种用户需求等明确的约束到隐性的常识约束,例如人们不能在不使用某种交通工具的情况下瞬移到另一个城市。旅行规划需要强大的能动性,以主动使用各种工具(例如搜索航班和餐馆)从部分可观察的环境中获取必要信息,并在考虑所有明确和隐性的约束的同时,对收集到的信息进行深思熟虑以推进规划。这种复杂性的规划任务超出了以前AI代理的能力范围。

TravelPlanner提供了一个丰富的沙盒环境,可以通过六种工具访问大约四百万条从互联网爬取的数据记录,并精心策划了1,225个不同的用户查询(以及它们的参考计划),每个查询都施加了不同组合的约束。综合评估表明,当前的语言代理尚未能够处理如此复杂的规划任务——即使是GPT-4也只实现了0.6%的成功率。语言代理难以保持任务,使用正确的工具收集信息,或跟踪多个约束。然而,我们注意到,语言代理有可能处理如此复杂的问题本身就是一个了不起的进步。TravelPlanner为未来的语言代理提供了一个具有挑战性但有意义的测试床。

TravelPlanner基准的介绍与目的

TravelPlanner基准介绍

TravelPlanner提供了一个丰富的沙盒环境,包含约四百万条从互联网爬取的数据记录,可以通过六种工具访问。我们还精心策划了1,225个多样化的用户查询(以及它们的参考计划),每个查询都施加了不同组合的约束。一个代表性的例子如图1所示。

TravelPlanner的目的

我们对五种LLMs(例如GPT-4)和四种规划策略进行了全面评估,以测试它们提供完整计划的能力。结果表明,即使是最先进的语言代理也无法处理像TravelPlanner这样复杂的规划任务——GPT-4的成功率仅为0.6%。语言代理在保持任务相关、使用正确工具收集信息或跟踪多个约束方面存在困难。然而,值得注意的是,语言代理能够尝试解决如此复杂的问题本身就是一个不小的进步。TravelPlanner为未来的语言代理提供了一个具有挑战性但有意义的测试平台,为它们朝着人类水平的复杂规划能力攀登提供了帮助。

一个积极的迹象是,尽管我们训练有素的人类标注者平均需要12分钟手动标注一个计划,但语言代理可以在仅1-2分钟内自动产生一个计划。也许有一天,语言代理将变得足够强大,能够帮助我们自动化处理许多这样的繁琐任务。

TravelPlanner基准的构建

约束的类型与评估方法

为了评估代理是否能够感知、理解并满足各种约束以制定可行的计划,我们在TravelPlanner中包括了三种类型的约束(表1):

  • 环境约束:真实世界是动态的,代理需要适应性强。例如,某些目的地的航班在特定时间可能不可用,代理必须动态寻找替代方案。

  • 常识约束:代理在现实世界中服务于人类时,应当考虑常识。例如,重复访问同一景点通常是不典型的。

  • 硬性约束:评估代理是否能够有效满足个性化用户需求,例如预算限制。

环境设置与数据记录工具

在TravelPlanner中,我们创建了一个静态且封闭的沙盒环境,以确保一致性和无偏见的评估。这样的设置保证了所有代理都能访问到相同的、不变的信息,避免了动态数据引入的变数和潜在偏差。为了提供与现实世界相符的多样化旅行选项,我们确保TravelPlanner中每个工具的数据库都包含丰富的信息。例如,FlightSearch工具的数据库就从Kaggle Flight Status Prediction数据集中提取了2022年3月1日至4月1日的数据,并生成了价格信息(表2)。此外,代理被指示使用“NotebookWrite”工具来记录规划所需的信息,以评估代理的工作记忆管理能力,并防止因上下文累积而导致的最大token限制问题。

旅行查询的设计与分类

为了创建TravelPlanner的多样化查询,我们从基本元素出发,包括出发城市、目的地和特定日期范围,随机选择以形成每个查询的框架。然后,我们调整旅行的持续时间和硬性约束的数量来创造不同复杂性级别的查询。例如,3天的计划专注于一个城市,而5天和7天的计划涉及访问一个随机选择的州,分别包括2个和3个城市的旅行。我们还引入了多样化的用户需求作为硬性约束,以增加进一步的复杂性和现实感。最后,我们使用GPT-4生成自然语言查询。

实验设计与基线模型

实验模式与评估标准

我们从多个维度对代理提供的计划进行综合评估。评估标准包括:

  • 交付率:评估代理是否能在有限步骤内成功交付最终计划。

  • 常识约束通过率:评估代理是否能将常识纳入其计划中。

  • 硬性约束通过率:衡量计划是否满足查询中明确给出的所有硬性约束。

  • 最终通过率:在所有测试计划中,满足所有上述约束的可行计划的比例。

选取的LLMs与规划策略

我们评估了多种LLMs和规划策略在TravelPlanner上的表现。在两阶段模式中,我们使用ReAct框架进行信息收集,同时改变基础LLMs。这种方法允许我们评估在统一工具使用框架下不同LLMs的表现。在单一规划模式中,我们的评估不仅涉及不同的LLMs,还包括不同的规划策略,以评估这些在其他规划基准中被证明有效的策略是否在TravelPlanner中保持其有效性。所有实验都是在零样本设置中进行的。

实验结果与深入分析

LLMs在TravelPlanner中的表现

在TravelPlanner中,最先进的大语言模型(LLMs)面临着巨大的挑战。即使是GPT-4,其成功生成满足所有约束条件的计划的比率也仅为0.6%,而其他LLMs未能完成任何任务(表3)。这些结果表明,尽管LLMs在使用工具和推理方面展现出了一定的能力,但它们在处理复杂的旅行规划任务时仍然存在困难。LLMs在保持任务相关性、使用正确工具收集信息以及跟踪多个约束方面表现不佳。

规划策略的有效性对比

在TravelPlanner中评估的四种规划策略——ReAct和Reflexion等,虽然在简单的规划设置中可能有效,但在TravelPlanner中的多约束任务中表现不足。它们通常无法正确地将推理转化为正确的行动,并跟踪全局或多个约束。这表明,语言智能需要更复杂的规划策略来接近人类级别的规划。

语言智能在工具使用与规划中的错误分析

进一步的分析揭示了现有语言智能的许多常见失败模式,如在工具使用中的参数错误、陷入死循环以及幻觉(图2)。例如,GPT-4-Turbo在使用工具时仍然会出现参数错误和重复动作循环的问题,这表明即使在收到无效操作或空结果的反馈后,智能体仍然持续重复这些操作。这暗示了智能体未能根据环境反馈动态调整其计划。

案例研究:语言智能规划失败的原因

通过对失败案例的研究,我们可以更深入地了解当前智能体在深度规划中的缺陷(图3)。例如,智能体由于无法纠正持续的错误而未能完成计划。在工具使用场景中,智能体通常在所有前置步骤正确执行的情况下仍然无法交付计划。进一步的调查显示,这通常是由于输入日期错误导致的。此外,智能体在单独规划模式下提供幻觉答案,是因为它们在处理大量信息时容易混淆。这表明智能体可能在面对大量信息时迷失方向,这种现象被称为“Lost in the Middle”。

智能体还难以将其行动与推理对齐。例如,在使用Reflexion策略的情况下,尽管智能体认识到需要最小化成本,但它们倾向于随机选择项目,其中一些可能更昂贵。这种行动与分析推理之间的不一致性严重阻碍了智能体的交付率。

总之,TravelPlanner为当前的智能体提供了一个重大挑战。即使是在许多传统任务中表现出与人类相当或更优的SoTA LLMs和规划策略,也仍然远远不足以处理人类能够胜任的复杂规划任务。TravelPlanner为未来更有能力的语言智能体的发展提供了一个具有挑战性但有意义的测试平台。

结论与未来展望:TravelPlanner对语言智能发展的意义

结论

TravelPlanner作为一个新型的旅行规划基准测试,为语言智能的发展提供了新的视角和挑战。通过对多个大语言模型(LLMs)的综合评估,我们发现即使是最先进的语言代理框架,如GPT-4,其在最终通过率上也仅达到了0.6%。这一结果表明,当前的语言代理在处理复杂的多约束规划任务时仍然存在明显的不足。

TravelPlanner的推出,不仅验证了语言代理在工具使用、信息收集和规划制定方面的能力,也揭示了它们在保持任务相关性、正确使用工具收集信息以及跟踪多重约束方面的不足。尽管如此,语言代理能够尝试解决如此复杂的问题本身就是一个不平凡的进步。

未来展望

未来的研究可以在TravelPlanner提供的丰富沙盒环境和挑战性测试床的基础上,进一步推动语言代理的发展。我们期待未来的语言代理能够更好地理解和处理复杂的多约束规划任务,逐步接近人类水平的规划能力。此外,随着语言代理在规划任务中的自动化能力的提升,它们有望在未来帮助人类自动化处理繁琐的任务,从而节省时间和提高效率。

声明:本期论文解读非人类撰写,全文由赛博马良「AI论文解读达人」智能体自主完成,经人工审核、配图后发布。

公众号「夕小瑶科技说」后台回复“智能体内测”获取智能体内测邀请链接。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/466951.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue3-应用规模化-路由和状态

客户端 vs. 服务端路由 服务端路由指的是服务器根据用户访问的 URL 路径返回不同的响应结果。当我们在一个传统的服务端渲染的 web 应用中点击一个链接时,浏览器会从服务端获得全新的 HTML,然后重新加载整个页面。 然而,在单页面应用中&…

python伯努利多项式

文章目录 伯努利数和多项式sympy实现 伯努利数是一种在数学、物理和工程中广泛应用的特殊数列,以瑞士数学家雅各布伯努利(Jacob Bernoulli)的名字命名,并在许多领域中发挥重要作用。在数学中,它们与斐波那契数列、卡塔…

幻兽帕鲁服务器操作系统选择Windows还是Linux?

各有各的优势,幻兽帕鲁Windows:适合新手,快速上手。 而幻兽帕鲁Linux(Ubuntu):适合有一定技术基础的小伙伴。 推荐选择Windows系统,用起来更加简单,操作方便。如下图: …

【51单片机】DS18B20(江科大)

一、DS18B20温度传感器 1.DS18B20介绍 DS18B20是一种常见的数字温度传感器,其控制命令和数据都是以数字信号的方式输入输出,相比较于模拟温度传感器,具有功能强大、硬件简单、易扩展、抗干扰性强等特点 测温范围 :- 55℃到125℃ 通信接口:1-Wire(单总线) 其它特征:可形成…

Java学习笔记(三)

目录 一、字符类型 二、布尔类型 三、基本数据类型转换 3.1 自动类型转换 3.2 强制类型转换 3.3 基本数据类型和String类型的转换 一、字符类型 字符类型可以表示单个字符,字符类型是char。 多个字符我们用字符串String。 字符和码值的对应关系是通过字符编…

如何在PDF 文件中删除页面?

查看不同的工具以及解释如何在 Windows、Android、macOS 和 iOS 上从 PDF 删除页面的步骤: PDF 是最难处理的文件格式之一。曾经有一段时间,除了阅读之外,无法用 PDF 做任何事情。但是今天,有许多应用程序和工具可以让您用它们做…

爬虫系列-web请求全过程剖析

🌈个人主页: 会编程的果子君 ​💫个人格言:“成为自己未来的主人~” 上一小节我们实现了一个网页的整体抓取工作,那么本小节,给各位好好剖析一下web请求的全部过程,这样有助于后面我们遇到的各种各样的网站就有了入手…

C# CAD交互界面-自定义面板集-查找定位(六)

运行环境 vs2022 c# cad2016 调试成功 一、代码说明 1. 类成员变量声明&#xff1a; List<ObjectId> objectIds new List<ObjectId>(); // 用于存储AutoCAD实体对象的ObjectId列表 private static Autodesk.AutoCAD.Windows.PaletteSet _ps2; // 自定义浮动面板…

C++ //练习 5.12 修改统计元音字母的程序,使其能统计以下含有两个字符的字符序列的数量:ff、fl和fi。

C Primer&#xff08;第5版&#xff09; 练习 5.12 练习 5.12 修改统计元音字母的程序&#xff0c;使其能统计以下含有两个字符的字符序列的数量&#xff1a;ff、fl和fi。 环境&#xff1a;Linux Ubuntu&#xff08;云服务器&#xff09; 工具&#xff1a;vim 代码块 /****…

matlab入门,在线编辑,无需安装matab

matlab相关教程做的很完善&#xff0c;除了B站看看教程&#xff0c;官方教程我觉得更加高效。跟着教程一步一步编辑&#xff0c;非常方便。 阅读 MATLAB 官方教程&#xff1a; MATLAB 官方教程提供了从基础到高级的教学内容&#xff0c;内容包括 MATLAB 的基本语法、数据处理…

探索ChatGPT-4:智能会话的未来已来

深入了解ChatGPT-4&#xff1a;前沿AI的强大功能 ChatGPT-4是最先进的语言模型之一&#xff0c;由OpenAI开发&#xff0c;它在自然语言理解和生成方面的能力已经达到了新的高度。如今&#xff0c;ChatGPT-4已经被广泛应用于多个领域&#xff0c;从教育到企业&#xff0c;再到技…

python适配器模式开发实践

1. 什么是适配器设计模式&#xff1f; 适配器&#xff08;Adapter&#xff09;设计模式是一种结构型设计模式&#xff0c;它允许接口不兼容的类之间进行合作。适配器模式充当两个不兼容接口之间的桥梁&#xff0c;使得它们可以一起工作&#xff0c;而无需修改它们的源代码。 …