Midscene.js：重新定义UI自动化的新时代工具

news/2025/3/10 14:58:57/文章来源:https://www.cnblogs.com/o-O-oO/p/18694845

前言

Midscene.js 是一个创新的、面向开发者的 UI 自动化解决方案，并通过人工智能技术简化自动化脚本的编写与维护。

它提供了三种核心方法——交互（.ai, .aiAction）、提取（.aiQuery）和断言（.aiAssert），使开发者能够以自然语言描述步骤并执行复杂的UI操作。

它不仅支持通用的大规模语言模型（LLM），还兼容开源模型 UI-TARS，为用户提供了更多的选择。

安装

方式一：从 Chrome 应用商店下载插件快速体验

https://chromewebstore.google.com/detail/midscenejs/gbldofcpkknbggpkmbdaefngejllnief?utm_source=ext_app_menu

方式二：在 github下载源码运行

https://github.com/web-infra-dev/midscene

配置模型和服务商

这里我们以 Chrome插件进行演示

常用的主要配置项如下，其中 OPENAI_API_KEY 是必选项：

名称	描述
OPENAI_API_KEY	必选项。你的 OpenAI API Key (如 "sk-abcdefghijklmnopqrstuvwxyz")
OPENAI_BASE_URL	可选。API 的接入 URL。常用于切换到其他模型服务，如 https://some_service_name.com/v1
MIDSCENE_MODEL_NAME	可选。指定一个不同的模型名称 (默认是 gpt-4o)。常用于切换到其他模型服务

这里要注意，环境变量的KEY=VALUE等于符号左右两侧不能有空格，否则会报错

基本使用

Midscene 核心操作分为行为、查询、断言，如下图所示：

行为

用于控制界面，包括对界面定位、点击、滚动、键盘输入、悬停、等待。

【基本用法】：

await mid.aiAction('在搜索输入框中输入你好，然后按回车执行搜索');
await mid.aiAction('将鼠标移动到新闻列表中的第二项，然后点击它');// 使用 `.ai` 简写
await mid.ai('将鼠标移动到新闻列表中的第二项，然后点击它');

查询

用于从 UI 提取自定义数据，不仅可以返回页面上直接书写的数据，还能基于“理解”返回数据。

【基本用法】：

const dataA = await mid.aiQuery({time: '左上角展示的日期和时间，string', userInfo: '用户信息，{name: string}',tableFields: '表格的字段名，string[]',tableDataRecord: '表格中的数据记录，{id: string, [fieldName]: string}[]'
});

最后AI会按照你的格式将数据整理返回

断言

为了确保提取的数据符合预期，通常会结合使用 .aiAssert 方法来进行断言。

【基本用法】：

await mid.aiAssert('"路由器" 的价格是 139');

这段代码将会检查页面上的“路由器”产品的价格是否确实是 139。如果不符合预期，则测试将失败。

注意事项

使用清晰、详细的步骤描述非常重要。过于简略的指令可能会导致不稳定的结果或者运行失败。

Midscene 目前无法规划包含条件和循环的步骤。

为了避免 AI 幻觉造成的错误断言，在需要高准确性的场景可以结合 .aiQuery 和普通 JavaScript 断言来替代 .aiAssert。

调试配置

设置 MIDSCENE_DEBUG_AI_PROFILE 变量，就可以看到每次调用 AI 的时间和 token 数量。

MIDSCENE_DEBUG_AI_PROFILE=1

总结

Midscene.js 是一款创新的面向开发者的 UI 自动化解决方案，通过人工智能技术简化自动化脚本的编写与维护。

它提供了交互、提取和断言三种核心方法，支持通用的大规模语言模型（LLM）和开源模型 UI-TARS。

原创我码玄黄

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/876965.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

Ant Design X：用最少的代码快速构建 AI 聊天界面

概述随着人工智能（AI）技术的迅猛发展，尤其是通用人工智能（AGI）的进步，人机交互的方式正在经历深刻的变革。传统的图形用户界面（GUI）逐渐被更加自然、人性化的交互模式所取代。为了应对这一变化，Ant Design X 团队提出了一种名为 RICH 的新设计范式，并开发了一系列专…

【Java应用】 Stream 流如何助力大数据处理

如果你会任意一门语言的stream流，没道理不会大数据开发。俗话说男追女隔座山，女追男隔层纱。如果说零基础学大数据，感觉前面是一座山，那么只要你会java或者任意一门语言的stream流，那大数据就只隔了一层纱。本文以java stream流计算为例，讲解一些基础的spark操作。另一…

VaultWarden：用私有密码管理器保卫自己的密码

正值春节之际，介绍一个非常实用的工具——VaultWarden，它是一个自托管的密码管理器，非常适合需要增强隐私保护的用户。如果你与笔者一样正在寻找一个简洁且安全的方式来管理密码，VaultWarden 无疑是一个不错的选择。现在，我们将通过 Docker 来配置 VaultWarden，使其成为…

并发编程 - 线程同步（二）

ThreadStatic实现线程本地存储，避免共享资源问题；ThreadLocal解决其缺陷；volatile关键字防止缓存和编译器优化，非完整线程同步机制。经过前面对线程同步初步了解，相信大家对线程同步已经有了整体概念，今天我们就来一起看看线程同步的具体方案。01、ThreadStatic 严格意义…

深度学习基础理论————混合专家模型（MoE）/KV-cache

1、混合专家模型（MoE）参考HuggingFace中介绍：混合专家模型主要由两部分构成： 1、稀疏的MoE层：这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个)，每个专家本身是一个独立的神经网络。在实际应用中，这些专家通常是前馈网络 (…

一，目录结构:二，代码： 1,controller/ImageController.go package controllerimport ("github.com/gin-gonic/gin""net/http" )type ImageController struct{}func NewImageController() ImageController {return ImageController{} }//得到详情 func (i…

2024年终总结——我自风中来，又往风中去

目录前言碎语事件简单记录（参考自己的朋友圈）疑为前城去连云港——小青岛，南北交，桃花源记忆点不大的一些城市……上海——夜之城北京——梦之城似是故人来技术或科研——向现实进发生活——认识我，改变我绩点——继续维稳比赛——淡化、反思音乐——重拾展望——勇敢的向…

Java 序列化流

目录概述ObjectOutputStream类构造方法序列化操作ObjectInputStream类构造方法反序列化操作1反序列化操作2 概述 Java 提供了一种对象序列化的机制。用一个字节序列可以表示一个对象，该字节序列包含该对象的数据、对象的类型和对象中存储的属性等信息。字节序列写出到文件之后…

【持续更新】【专题】初等数论【更新逆元】

【持续更新】【专题】初等数论 Designed By：FrankWkd 【100%原创】【禁止搬运】 Updated at 2025.01.26 前言：主要从线性筛开始速通初等数论尽可能的多证明结论而不是阐述结论。如果你只是想回顾结论，请看其他人的 \(Blog\) .一、基础概念整除：对于两个正整数 \(a,b\), 存…

四.3 Redis 五大数据类型/结构的详细说明/详细使用（ hash 哈希表数据类型详解和使用）

四.3 Redis 五大数据类型/结构的详细说明/详细使用（ hash 哈希表数据类型详解和使用） @目录四.3 Redis 五大数据类型/结构的详细说明/详细使用（ hash 哈希表数据类型详解和使用）2.hash 哈希表常用指令(详细讲解说明)2.1 hset <key><field><value> 给<…

qcom usb PD tcpc overview

该软件层将PMxxxxB硬件连接到LPM模块，因为上述模块使用Type-C端口控制器接口（TCPCI）进行通信。软件层，使PMIC Type-C PD硬件适用于基于TCPCI的软件架构基本状态机：进入、离线、待机状态 PMIC Type-C和PD PHY中断的消费者 PMIC硬件专用排序和定时器

Midscene.js：重新定义UI自动化的新时代工具

前言

安装

配置模型和服务商

基本使用

行为

查询

断言

注意事项

调试配置

总结

相关文章

Ant Design X：用最少的代码快速构建 AI 聊天界面

【Java应用】 Stream 流如何助力大数据处理

VaultWarden：用私有密码管理器保卫自己的密码

JavaWeb 课程介绍

并发编程 - 线程同步（二）

深度学习基础理论————混合专家模型（MoE）/KV-cache

gin: 使用独立的路由文件和controller文件

2024年终总结——我自风中来，又往风中去

Java 序列化流

【持续更新】【专题】初等数论【更新逆元】

四.3 Redis 五大数据类型/结构的详细说明/详细使用（ hash 哈希表数据类型详解和使用）

qcom usb PD tcpc overview