[阅读笔记25][WebArena]A Realistic Web Environment for Building Autonomous Agents

这篇论文提出了WebArena这个环境与测试基准,在24年1月发表。

之前的agent都是在一些简化过的合成环境中测试的,这会导致与现实场景脱节。这篇论文构建了一个高度逼真、可复现的环境。该环境涉及四个领域:电子商务、论坛讨论、软件开发和内容管理。基于环境又引入了一组基准任务,用来评估任务完成的正确性,这些任务可以模拟人类在互联网上的日常行为。另外该基准被证明是具有挑战性的,GPT-4成功率仅14.41%,人类成功率为78.24%。

WebArena的观察空间主要有三类,网页的原始HTML、网页截图和可访问性树。下图是三种不同类型的观察表示。

动作空间也是主要分为三类,第一类是元素相关的操作,例如单击、悬停、键入以及组合键。第二类是标签页相关的操作,例如打开关闭或者切换标签页。第三类是url导航相关操作,例如前进后退或者访问某个url。右图为三类动作的具体描述。

作者基于四个Web环境提出了新的评测基准,这个基准包括812个以自然语言描述的指令。这些指令是通过241个模板生成的。相当于每个模板生成了3.3个指令。
这些指令可以分为三类,第一类是信息查找类任务,第二类是网站导航类,第三类是具体操作类任务,涉及增删改网页内容或者一些设置。右图对这三类任务举了一些例子。

生成了812个指令后,由精通网页任务的专业人员进行标注,拿到标注之后需要确定每类指令如何进行评估。具体可以参照下面的表,对于第一类指令信息查找类的,根据具体指令不同又分为三类,第一种就是答案必须精确匹配的,第二种是答案必须包含某些字段的,第三种是答案可以模糊匹配的,这里使用GPT-4来判断两个答案语义上是否相同。
对于第二类和第三类指令,需要借助程序来判断。具体而言,导航类任务先获取当前页面的url,然后通过比对url来判断是否导航到要求页面。操作类任务根据不同操作也有不同的评估方法,这里是发帖子操作。

最后是作者使用各种LLM作为agent来完成任务,SR表示成功率,SRac是能完成的任务成功率,SRua是不可能完成的任务识别率。另外可以观察到,添加了思维链提示后普遍都能获得更高的成功率,而添加UA Hint后对于不可能任务识别率更高了,但是GPT-4对能完成的任务成功率会下降。这主要是由于GPT-4将一些可行的任务错误识别为不可能任务了。
最终最好的LLM也才只有14.41%的成功率,人类也只有78.24%的成功率,这些结果强调了在WebArena这个现实环境下完成任务的挑战性。

左图是对比之前已有的一些基准,WebArena是在可交互的现实环境下实现的,并且包含了多样的人类在日常生活中可能遇到的任务,另外还设计了评估指标来评估任务执行的功能正确性。
右图是在探讨同一个模板生成的不同指令是否具有相似的难度。可以看到大部分模板只有20%多的成功率,也就是说即使是同一个模板所生成的指令也具有不同的难度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/636660.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

制作一个RISC-V的操作系统十三-抢占式多任务和兼容协作式多任务

文章目录 强占式多任务流程代码具体流程兼容协作式多任务(软中断)寄存器 msip流程代码结果 强占式多任务 流程 抢占式多任务由计时器中断触发,最后在处理程序中切换到下一个进程 代码具体流程 上下文中增加pc寄存器 寄存器保留上下文和切…

目标检测网络YOLO进化之旅

yolo系列网络在目标检测领域取得了巨大的成功, 尤其是在工程实践中, 以其出色的性能优势获得了广泛的应用落地。 YOLO的前3个版本是由同一个作者团队出品, 算是官方版本。 之后的版本都是各个研究团队自己改进的版本, 之间并无明…

带头循环双向链表专题

1. 双向链表的结构 带头链表⾥的头节点,实际为“哨兵位”,哨兵位节点不存储任何有效元素,只是站在这⾥“放哨 的” “哨兵位”存在的意义: 遍历循环链表避免死循环。 2. 双向链表的实现 2.1双向链表结构 typedef int DataTyp…

word批量修改表格样式

利用宏,批量选中表格,然后利用段落和表设计来操作。 利用宏,批量选中表格,参考百度安全验证段落,表格里面的内容有空格,应该是有缩进,在段落中去掉缩进,即缩进-特殊,选择…

【IC设计】草履虫都能看懂的AXI入门博客(大量图文来袭,手把手教学,波形仿真)

文章目录 概述AXI的三类接口AXI的特点AXI的五个通道 AXI的时序AXI的握手机制AXI的读写流程写操作读操作 AXI-Full的接口信号1. 全局信号:2. 写地址通道信号3. 写数据通道信号4. 写响应通道信号5.读地址通道信号6.读数据通道信号 AXI-Full的读写时序时序图图例写时序…

web前端第二次作业

1,对象 let{ 属性 方法 } 2,闭包 只有函数内部的子函数才能读取局部变量,所以闭包可以理解成定义在一个函数内部的函数,在本质上,闭包是将函数内部和函数外部连接起来的桥梁。 3,math console.log(Math.flo…

使用Docker搭建Redis主从集群

文章目录 ☃️前言☃️搭建❄️❄️架构❄️❄️实例说明❄️❄️搭建第一个服务器上的两个实例❄️❄️搭建第二个服务器上的一个实例 ☃️开启主从❄️❄️改配置❄️❄️重启从节点 ☃️验证 ☃️前言 单节点 Redis 的并发能力是有上限的,要进一步提高Redis的并…

项目管理-项目开发计划介绍

目录 一、内容总览 二、项目开发计划概述 2.1 概述 2.2 项自开发计划的目的和作用 2.3 项目开发计划的内容 2.3.1 工作计划 2.3.2 人员组织计划 2.3.3 设备采购和资源供应计划 2.3.4 配置管理计划 2.3.5 进度安排计划 2.3.6 成本投资计划 2.3.7 质量保证计划 2.3.8…

Json三方库介绍

目录 Json是干什么的Json序列化代码Json反序列化代码 Json是干什么的 Json是一种轻量级的数据交换格式,也叫做数据序列化方式。Json完全独立于编程语言的文本格式来存储和表述数据。易于人阅读和编写,同时也易于机器解析和生成,并有效地提升…

STM32H750外设ADC之双重 ADC 模式

目录 概述 1 双重 ADC 模式介绍 1.1 双重 ADC模式 1.2 双重 ADC 模式的类型 2 双重 ADC 模式寄存器的配置 3 模式功能实现 3.1 注入同步模式 3.2 支持独立注入的常规同步模式 3.2.1 中断的方式 3.2.2 DMA 读取常规数据 3.3 支持独立注入的交替模式 3.3.1 中断触发…

企业车辆违章查询工具,批量查询企业名下车辆违章情况,专为网约车/出租车管理公司而生

功能介绍 功能分为:违章管理、车辆管理、任务管理 违章管理如图: 搜索条件为车牌号 筛选条件为:时间区间、企业选择、是否处理违章、是否缴纳罚款、所属车管员 车牌管理如图: 可以新增车牌 查询条件为:车牌信息、车…

24五一杯资料汇总!!!!

以下内容为23年五一杯内容,24年也将会按时更新资料!!! 问题1:给定建筑物数据,假设该建筑物内温度需要一直保持在18-26度,在温度不适宜的时候要通过电来调节温度,消耗一度电相当于0.…