AutoGLM: Autonomous Foundation Agents for GUIs

news/2025/3/9 17:37:14/文章来源:https://www.cnblogs.com/weihangzhang/p/18759292

AutoGLM: 针对Web和手机,基于ChatGLM,具体细节并不清楚。

主要内容

提出AUTOGLM,集成了一套全面的技术和基础设施,以创建适合用户交付的可部署代理系统。首先,为GUI控制设计合适的"intermediate interface"是至关重要的,可以实现规划和定位的分离。其次,开发了一种新颖的渐进式训练框架,该框架能够为AUTOGLM提供self-evolving oneline curriculum reinforcenment learning。

动机和方法

整体动机和方法

  • 一个关键的障碍在于缺乏高质量的轨迹数据,这涉及到决策过程。
    现有预训练集中决策数据的稀缺性。虽然互联网包含了大量的人类知识,但它主要由静态信息组成,不能充分捕获人类决策和环境交互。构建有能力的基础Agent需要通过与真实世界环境的直接交互或从合成的轨迹中学习来丰富他们的动态知识。
  • Agent是为了增强而不是取代人类的能力。
  • 具体方法论文并没有讨论。

1. Important Techniques

  • 预训练:关于agent预训练数据很少,且主流方法基于visual instruction tuning。因此,在预训练中适当地利用现有的具有弱监督决策信号的在线数据将有实际的帮助。此外,对于多模态感知来说,高分辨率的视觉输入是非常重要的(Cogagent),尤其对于SoM prompting定位策略。

  • 多模态大模型:相比于,Robotic Process Automation (RPA)中的传统方法OCR,LMMs可以执行模糊匹配和长远规划,这得益于其对预训练中的常识和GUI环境的强大把握。尽管如此,LMMs仍然需要大量的训练来获得Agent任务所必需的强大的规划和推理能力。

  • SFT:收集标注的轨迹很耗时耗力,agent只学习一步一步地模仿专家的行为,而不完全理解其目标。且难以学习从错误中改正的能力。

  • Curriculum Learning:Agent任务的难度通常大不相同,课程学习是明智的。依次采用单步任务、简单的少步任务和复杂的长时间跨度任务进行训练。DigiRL还提出了一种简单的课程设置,根据一定时间戳对应的代理能力,从一组固定的指令中筛选出合适的任务(对于复杂任务十分有用)。

  • Reward Modeling:大多RL agent的reward function的任务受限,基于特定的规则,与LLM,LMM基座训练目标冲突。具体来说,RMs可以分为结果监督的ORM和过程监督的PRM,它们提供了不同的有效监督粒度。

  • Reinforcement Learning:将RL应用于基础Agent训练的挑战在于环境中采样的低效率。解决方法:模拟器+采样多样性。由于输出的内容是确定的格式(基于function的动作),导致过拟合,即便推理采用较高的temp,生成的结果依然很单一。

  • 基础模型上扩展RL和后期训练对于建立强大的agent是至关重要的,

2. Insight 1: Intermediate Interface Design

中间界面设计对于分离Agent中的规划和定位行为至关重要。将其分离为不同的模块,可以在不受干扰的情况下,从灵活性和准确性两个维度进行改进。(可以单独对于规划模型进行优化RL等,提高规划能力?定位模型只需要优化grounding准确度。)这样的改进对于基于API的agent同样很有效果。

文章中说"While the planning could still be significantly improved, a majority of current errors arise from incorrect element identification in the grounding period",定位错误虽然严重,是否是由于规划问题导致的呢?

描述

3. Insight 2: Self-Evolving Online Curriculum RL

现有的许多文献中的Agent工作都是基于专有的LLM / LMM API,其规划能力无法通过训练得到提高。本文开发了一个Self-Evolving Online Curriculum RL -- WebRL,用于从头训练规划模型。task data scarcity and policy distribution drift是很困难的问题。

  • 用自演化技术来增加在线推出过程中失败的任务指令,使指令变得更复杂或更简单。这些自我进化的指令被critic过滤,然后用于下一个迭代训练阶段的输出。
描述
  • 课程学习的一个重要问题是递进式课程安排中的policy分布漂移。

实验分析

Web数据集

  • VAB-WebArena-Lite:VAB - WebArena - Lite1是原始812 - task WebArena 的一个改进的165 - task子集,具有人工验证答案和判断功能。其设计意图是加快对WebArena的评价,保证判断的正确性。
描述
比上图强化学习对比实验的性能还高了10%+。

Android数据集

  • AndroidLab (VAB-Mobile) AndroidLab是一个支持可重复性评估的交互式Android基准测试环境和开发环境,覆盖了系统和一些离线可部署的英文APP。与现有的一些基准如AITW相比,它的交互特性允许对agent进行更实际的评估,并通过RL进行改进。
描述

36.2%的SR是不是有点低?离实用还有距离?

  • Human Evaluation on Chinese Android APPs. 为了测试面向公众用户部署的AUTOGLM的实用性,我们仔细研究了它在7个常见的中文Android APP上的频繁任务,包括微信、美团、淘宝、大众点评、高德地图、小红书和12306。

    使用一个测试查询集( Cf。表2)来评估AUTOGLM在用户交付场景下的实际性能,其中最终的成功率由人工对整个执行轨迹的评估来确定(数量并不是很大)。

描述
描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/896013.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vulnhub-election靶机

总结:本靶机给了很多目录,对于信息收集考察的比较严格,给了一个数据库,很多时候容易陷进去,拿到用户权限登录后,也需要大量的信息收集,虽然可以在数据库里找到root和密码,但是不是靶机本身的,最终利用suid发现可疑目录,查找日志后利用脚本提权一、靶机搭建 选择扫描虚…

[HDCTF 2023]double_code _wp

其实这道题的加密函数我是手翻出来的,但是做完之后了解到这是一个sheelcode 实际上就是跑病毒的代码 WriteProcessMemory 用于向指定进程中写入数据,写入一个缓冲区中的数据到另一个进程指定的内存地址中。 函数接受的参数包括要写入的进程句柄,要写入的内存地址,要写入的…

VisionPro添加显示标签(二维码)简单版

!!!——!!! 咱们先展示效果,这个显示的是二维码的信息1.首先呢,你先添加工具 CogIDTool ,工具里我是这么设置的,如果你自己添加的码跟我的不一样,左边几个都运行看看2.现在可以添加脚本了,我接触的都是第二个C#高级脚本,下边是C#高级脚本演示 1)先创建 1个标签2)…

初步学习Android studio

下载安装了Android studio,并在其中下载好了gradle,在模拟手机中实现helloworld

2025低空经济eVTOL行业研究报告42份汇总解读|附PDF下载

原文链接:https://tecdat.cn/?p=40459在科技与交通领域加速融合的当下,低空经济正凭借其独特优势,逐步成为全球经济发展的新焦点。电动垂直起降飞行器(eVTOL)作为低空经济的核心要素,其发展态势备受瞩目。本报告汇总洞察基于文末42份低空经济行业研究报告的数据,报告合…

Prometheus服务的动态发现

prometheus服务的动态发现原文链接:https://blog.csdn.net/2302_79199605/article/details/136441386一、概述 ​ 目前,我们每增加一个被监控的节点,就需要修改prometheus的配置文件,然后重新加载prometheus服务,这种方式比较繁琐,每次新增、删除被监控节点都需要重新操…

AtCoder Beginner Contest 396(d和e)

题目链接d 题目分析 本题要求在一个简单连通无向图中,找出从顶点 1 到顶点 N 的所有简单路径(即不重复经过同一顶点的路径)中,路径上所有边的标签的异或值的最小值。 输入信息第一行包含两个整数 N 和 M,分别表示图的顶点数和边数,其中 2 ≤ N ≤ 10,N - 1 ≤ M ≤ N * …

实验1C语言开发环境使用和数据模型,运算符,表达式

实验1 代码:#include<stdio.h> int main() { printf(" 0 \n"); printf("<H>\n"); printf("I I\n");return 0; } task1 运行结果截图:实验2 代码:#include<stdio.h> int main(){ char ans1,ans2;printf("每次课前认真…

R语言NIMBLE、Stan和INLA贝叶斯平滑及条件空间模型死亡率数据分析:提升疾病风险估计准确性

全文链接:https://tecdat.cn/?p=40365 原文出处:拓端数据部落公众号 在环境流行病学研究中,理解空间数据的特性以及如何通过合适的模型分析疾病的空间分布是至关重要的。本文主要介绍了不同类型的空间数据、空间格点过程的理论,并引入了疾病映射以及对空间风险进行平滑处理…

android组件实现圆角

圆角实现步骤效果预览 要实现如图所示的圆角步骤在app/src/main/res/drawable新建样式文件如rounded.xml<?xml version="1.0" encoding="utf-8"?> <!--实现圆角边框--> <shape xmlns:android="http://schemas.android.com/apk/res/a…

Manus AI 站在巨人(大模型)肩膀上的AI助手

3月6日,注定是科技圈的不眠之夜。Manus AI已横空出世,它可不是普通的聊天机器人,而是一个真正的全能AI助手。它能够帮你从想法到落地,直接执行听起来是不是很酷?接下来,我们看几个官方的例子,带大家体验一下它到底有多强大。 想象一下,你手头有10份简历要筛选。它会像人…

计算机组成原理学习

计算机体系专业术语 (ISA)指令集体系结构 描述计算机的功能,程序员看到的计算机的抽象视图,并定义了汇编语言和编程模型,但并没有考虑计算机的实现 微体系结构 描述一种ISA的实现方式,关注计算机的内部设计 系统体系结构 包括处理器 存储器 总线外设在内的整个系统计算机系…