论文笔记:SmartPlay : A Benchmark for LLMs as Intelligent Agents

iclr 2024 reviewer评分 5688

  • 引入了 SmartPlay,一种从 6 种不同游戏中提取的基准
    • 衡量LLM作为智能体的能力

1 智能代理所需的能力

  • 论文借鉴游戏设计的概念,确定了智能LLM代理的九项关键能力,并为每项能力确定了多个等级:
长文本理解

一般LLM的能力

根据文档长度和句法变化定义了4个等级:

1) 几行固定文本

2) 几段固定文本

3) 带有句法变化

4) 长于1页(500字)

推理

多跳逻辑推理和演绎,通常需要用于分析游戏对象的互动或行动条件/依赖关系

根据推理跳数定义了3个等级:

1) (0 ∼ 1)

2) (2 ∼ 3)

3) (> 3)

指令/规则遵循

遵循环境或用户设定的规则和指令

我们根据游戏规则的数量定义了3个等级:

1) 单一规则,

2) (< 5),

3) (5+)

规划

进行长期的情境规划以实现复杂目标

根据规划步骤和需要优先处理的并行目标定义了3个等级

1) < 5个规划步骤

2) 5个以上规划步//骤

3) 并行目标

泛化

在广泛的任务范围内表现出色。 

根据游戏提供的变异度定义了3个等级:

1) 固定环境

2) 固定游戏世界但目标随机

3) 程序生成的游戏世界

理解概率

分析和估计随机事件的概率。

根据环境中随机性的重要性定义了3个等级:

1) 无随机性

2) 游戏中存在随机性

3) 随机性为核心游戏机制

从互动中学习

从实时互动中获取环境知识。

根据需要学习的独特互动次数定义了4个等级:

1) 无需学习

2) 单次互动

3) < 5次互动

4) 5次以上互动

错误/失误处理

从错误中恢复(例如,纠正错误的轨迹)。

根据是否需要处理错误以及是否需要额外的推理和重新规划定义了3个等级:

1) 不需要

2) 简单回滚即可纠错

3) 需要推理和重新规划以纠正错误

空间推理

空间推理通常需要用来理解方向和在游戏世界中导航(例如,导航2D/3D世界)。

根据维度定义了3个等级:

1) 0 ∼ 1D

2) 2D

3) 3D。

2 SMARTPLAY 中涉及的游戏

  • 双臂老虎机
  • 石头剪刀布
  • 汉诺塔
  • 信使
  • 制造者
  • 我的世界

3 实验

3.1 各种大模型比较

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/619098.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LLM-大模型演化分支树、GPT派发展阶段及训练流程图、Infini-Transformer说明

大模型是怎么演进的&#xff1f; Encoder Only: 对应粉色分支&#xff0c;即BERT派&#xff0c;典型模型&#xff1a; BERT 自编码模型&#xff08;Autoencoder Model&#xff09;&#xff1a;通过重建句子来进行预训练&#xff0c;通常用于理解任务&#xff0c;如文本分类和阅…

<计算机网络自顶向下> TCPUDP套接字编程

应用实现&#xff1a;源端的应用进程交换报文实现应用协议&#xff0c;来实现各种各样的网络应用&#xff08;dash&#xff0c;email, etc&#xff09; 而应用层通信不可以直接通信&#xff0c;需要借助下层的服务才可以进行&#xff0c;通过层间接口交给下层&#xff0c;通过…

面试八股——Spring——AOP与事务

AOP的定义 事务的实现 事务的失效场景 异常捕获处理 下图中由于②导致异常&#xff1a; 原因&#xff1a; 解决办法&#xff1a;自己抛出一个非检查异常&#xff08;具体原因看“抛出检查异常”&#xff09;。 抛出检查异常 由于①出错&#xff0c;导致抛出了检查异常 原因&…

【Linux】CentOS 7安装后没有图形界面

专栏文章索引&#xff1a;Linux 有问题可私聊&#xff1a;QQ&#xff1a;3375119339 目录 一、项目场景 二、问题描述 三、原因分析 四、解决方案 1.当前处于命令行界面&#xff0c;可以切换为图形界面 2.安装时没有安装图形界面&#xff0c;选择了Minimal Install 3.下…

专业照片编辑软件ON1 Photo RAW 2024 mac/win

ON1 Photo RAW 2024 for Mac是一款集专业性与易用性于一体的照片编辑软件。它拥有简洁直观的用户界面&#xff0c;即便对于摄影新手&#xff0c;也能快速上手。软件支持RAW格式照片处理&#xff0c;能够完整保留照片原始信息&#xff0c;让后期调整更加灵活。 在功能方面&#…

数据链路层(上):以太网、二层交换机和网络风暴

目录 数据链路层知识概览 数据链路层设备 1、二层交换机 2、拓展&#xff1a;二层交换机与三层交换机有啥区别&#xff1f; 3、广播风暴 4、交换机以太网接口的工作模式 数据链路层的功能 数据链路层--以太网 1、以太网是什么&#xff1f; 2、以太网地址 数据链路层知…

Unity 中消息提醒框

Tooltip 用于ui布局 using System.Collections; using System.Collections.Generic; using UnityEngine; using TMPro; using UnityEngine.UI;[ExecuteInEditMode()] // 可以在编辑模式下运行public class Tooltip : MonoBehaviour {public TMP_Text header; // 头部文本publi…

JS/TS笔记学习1

周末总得学点什么吧~ 奥利给! 跑火车 递归 减速 let currentIndex 0; let speed 500; // 初始速度&#xff0c;单位是毫秒 let decrement 20; // 每次迭代速度减少的量 const cells document.querySelectorAll(.cell); function highlightCell() { cells.forEach(…

Redis中的订阅发布(一)

订阅发布 概述 Redis的发布与订阅功能由PUBLISH、SUBSCRIBE、PSUBSCRIBE等命令组成。通过执行SUBSCRIBER命令&#xff0c;客户端可以订阅一个或多个频道&#xff0c;从而成为这些频道的订阅者(subscribe)&#xff1a; 每当有其他客户端向被订阅的频道发送消息(message)时&…

Linux调试器之gdb

前言 我们前面介绍了几个基本的环境开发工具。例如通过yum我们可以安装和卸载软件、通过vim我们可以写代码、通过gcc和g我们可以编译代码成可执行程序。但是如何在Linux下调试代码呢&#xff1f;我们并未介绍&#xff0c;本期我们将来介绍最后一个工具 --- 调试器gdb。 本期内…

CDP7 下载安装 Flink Percel 包

下载链接&#xff1a;https://www.cloudera.com/downloads/cdf/csa-trial.html 点击后选择版本&#xff0c; 然后点击download now&#xff0c;会有一个协议&#xff0c;勾选即可&#xff0c;然后就有三个文件列表&#xff0c; 我这里是已经注册登录的状态&#xff0c;如果没…