browser-use介绍
browser-use是将您的 AI 代理连接到浏览器的最简单方式。它通过提供一个强大且简单的接口来实现 AI 代理访问网站的自动化。
GitHub地址:https://github.com/browser-use/browser-use。目前已经获得了27.3k颗stars,2.7kforks,看得出来是一个比较热门的项目。我在上手体验了之后,发现确实是一个很有趣的项目,因此推荐给大家。
实践
上手也非常简单,创建一个python虚拟环境,pip install browser-use,再playwright install即可。
现在需要进行LLM的配置,官方推荐使用gpt-4o,但是为了降低成本,方便让看了教程感兴趣的人能够方便上手,这里我使用的是硅基流动提供的模型。目前硅基流动注册送14元不过期额度,够用一段时间的了,邀请链接:https://cloud.siliconflow.cn/i/Ia3zOSCU。如果你的额度不够了,但是也想体验一下,可以私聊我,我可以提供一个api key暂时供你快速上手体验,额度用差不多了,我就停止了。
创建一个.env文件,这样写:
Silicon_Cloud_API_KEY=xxx
Base_URL=https://api.siliconflow.cn
Model=Qwen/Qwen2.5-72B-Instruct
创建一个test脚本,这样写:
from langchain_openai import ChatOpenAI
from browser_use import Agent
from dotenv import load_dotenv
import os
load_dotenv()import asyncioapi_key = os.getenv('Silicon_Cloud_API_KEY')
base_url = os.getenv('Base_URL')
model = os.getenv('Model')llm = ChatOpenAI(model=model, api_key=api_key, base_url=base_url)async def main():agent = Agent(task="获取https://github.com/OpenInterpreter/open-interpreter仓库的前五个问题",llm=llm,use_vision=False,)result = await agent.run()print(result)asyncio.run(main())
查看效果:
还生成了一个agent_history.gif可以查看流程:
将结果与实际对比:
可以发现browser-use非常准确的获取了。
再使用一个更普遍的例子,就是获取当前微博前十的热搜。
from langchain_openai import ChatOpenAI
from browser_use import Agent
from dotenv import load_dotenv
import os
load_dotenv()import asyncioapi_key = os.getenv('Silicon_Cloud_API_KEY')
base_url = os.getenv('Base_URL')
model = os.getenv('Model')llm = ChatOpenAI(model=model, api_key=api_key, base_url=base_url)async def main():agent = Agent(task="获取当前微博前十的热搜",llm=llm,use_vision=False,)result = await agent.run()print(result)asyncio.run(main())
最后
以上就是使用硅基流动中的Qwen/Qwen2.5-72B-Instruct快速体验browser-use的效果。初步体验感觉是一个很有潜力的项目,将AI Agent与浏览器自动化结合确实可以做很多事情。