python里使用Playwright

news/2025/3/14 15:49:40/文章来源:https://www.cnblogs.com/baby123/p/18755330

Playwright 是由微软开发的一款开源的 Web 自动化测试框架,主要用于自动化测试和浏览器操作

它是一个跨浏览器的自动化工具,支持 Python、JavaScript 等多种语言

安装

pip install playwright

安装 Playwright 支持的浏览器 

playwright install

从 HTML 中提取文字、标题、摘要和关键字

from playwright.sync_api import sync_playwright
from bs4 import BeautifulSoup  # 用于解析 HTMLdef extract_page_content(url):with sync_playwright() as p:# 启动浏览器browser = p.chromium.launch(headless=True)  # 可以设置为 headless=False 方便调试page = browser.new_page()# 导航到目标页面page.goto(url)page.wait_for_load_state("networkidle")  # 等待页面加载完成# 获取页面的 HTML 内容html_content = page.content()# 关闭浏览器browser.close()# 使用 BeautifulSoup 解析 HTMLsoup = BeautifulSoup(html_content, "html.parser")# 提取标题title = soup.find("title").text if soup.find("title") else "No title found"# 提取摘要(meta description)meta_description = soup.find("meta", attrs={"name": "description"})description = meta_description["content"] if meta_description else "No description found"# 提取关键字(meta keywords)meta_keywords = soup.find("meta", attrs={"name": "keywords"})keywords = meta_keywords["content"] if meta_keywords else "No keywords found"# 提取正文内容(去除 HTML 标签)text = soup.get_text(separator="\n", strip=True)return {"title": title,"description": description,"keywords": keywords,"text": text}url = "https://www.cnblogs.com/baby123/p/18772196"
result = extract_page_content(url)
print("Title:", result["title"])
print("Description:", result["description"])
print("Keywords:", result["keywords"])
print("Content:", result["text"])

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/898698.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于Ollama本地部署DeepSeek-r1:7b大语言模型

1、概述随着人工智能技术的飞速发展,越来越多的开发者和企业开始关注大语言模型(LLM)。这些模型以其强大的自然语言处理能力,在文本生成、问答、翻译、分类等多种任务中表现出色。然而,在实际使用中,许多人会遇到如何快速且高效地部署这些模型的问题。本文将介绍如何通过…

web116笔记(misc+lfi)

访问题目是一个视频,源码也没有什么有用信息 提示:misc+lfi 下载视频,使用 010editor 打开,发现存在 png 图片的数据,搜索另存为 过滤了蛮多的,不过没有过滤flag ,也没有过滤 filter 尝试构造语句?file=php://filter/resource=flag.php (直接读取) 如果没有设置 fil…

具身智能

Topic I: 3D VIsion Topic II: Robotics Topic IV: Reinforcement learning Linear Algebra Vector Space 向量空间Linear Combination 线性组合\(w=a_1v_1+a_2v_2+...+a_nv_n=\sum_i a_iv_i\)Span of Vectors\(v_i \in V_m\), \(w \in V_m\)Infinite-Ddimensional Vector Spac…

python的jieba

jieba 是一个广泛使用的 Python 中文分词库,主要用于将中文文本切分成独立的词语。 https://github.com/fxsjy/jieba 安装pip install jieba使用 (1)分词import jieba # 分词 text = "我爱自然语言处理" words = jieba.cut(text, cut_all=False) # 精确模式 prin…

3. 创建一个菜单组件-DeepSeek辅助编程

在deepseek中输入: 创建一个vue组件 组件实现菜单的功能 需要让调用该组件是可以自定义一些属性:mode:horizontal横向显示/vertical纵向显示,background-color,text-color,active-text-color,model:通过该model绑定菜单/model为MenuItem的数组 MenuItem由这些参数构成:inde…

微信支付相关配置

公众号相关配置 地址:https://mp.weixin.qq.com/一、获取用户openid相关配置 二、获取开发者ID(AppID)/开发者密码(AppSecret) 微信支付相关配置 地址:https://pay.weixin.qq.com/需要先申请开通支付产品微信支付相关参数获取: 一:获取商户号(商户号mach_id)三、获取证书…

华为开发者空间:基于DeepSeek+Cherry Studio构建模拟面试助手

通过实际操作,让开发者熟悉如何通过云主机部署DeepSeek,以及如何将DeepSeek与Cherry Studio结合起来帮助我们解决一些实际的问题。本文分享自华为云社区《华为开发者空间:基于DeepSeek+Cherry Studio构建模拟面试助手》,作者:开发者空间小蜜蜂。 1 案例介绍 CherryStudio …

​信创环境元宇宙应用:3种虚拟团队管理工具前瞻测评

随着信息技术的不断发展,信创环境下的元宇宙应用正逐渐成为各行业关注的焦点。在这个虚拟的世界中,虚拟团队的管理变得至关重要。本文将对三种虚拟团队管理工具进行前瞻测评,探讨它们在信创环境元宇宙应用中的优势和潜在挑战。 信创国产化项目管理解决方案 禅道是一款国产的…

VSCode+Linux+GCC编译运行数据结构的C语言程序集

背景 学习数据结构,写了很多C语言程序,这些C语言程序都保存在一个Git仓库中,以章节、实验内容为目录存放,形如:之前一直是通过gcc命令手动编译、运行,但随着程序逐渐复杂,希望简化构建过程,做到一键编译运行,同时支持断点调试。 环境VSCode,安装了C/C++扩展 Linux GC…

​信创项目管理认证解析:从SAFe到PMBOK的5大适配要点

在当今数字化时代,信创项目管理的重要性日益凸显。SAFe(Scaled Agile Framework,规模化敏捷框架)和 PMBOK(Project Management Body of Knowledge,项目管理知识体系)作为两种广泛应用的项目管理方法,如何实现它们之间的适配,以更好地推动信创项目的成功实施,是一个值…

mybatis如何使用注解方式,不使用xml

前言 大家好,我是小徐啊。我们在使用springboot开发的时候,一般是结合mybatis来使用的。而且,我们一般使用mybatis的时候,都是使用xml的文件。 不过,我之前在开发的时候,遇到了使用xml怎么也读取不到,可能是哪里配置的问题。这个时候,我就想到了使用注解的方式写sql,不…

SHP转WKT文件工具

SHP转WKT文件工具 *.shp转成wkt文件工具:将shp数据的图形转换成wkt工具 参数配置:param.yml设置shape路径,路径参数设置:shapeFile: “你的路径”;注:路径请使用"\\"或者’/’ ;避免使用含中文的路径示例: shapeFile: “C:/Users/Administrator/Desktop/wm/wm.s…