python里使用Playwright-编程知识

python里使用Playwright

news/2025/3/14 15:49:40/文章来源:https://www.cnblogs.com/baby123/p/18755330

Playwright 是由微软开发的一款开源的 Web 自动化测试框架，主要用于自动化测试和浏览器操作

它是一个跨浏览器的自动化工具，支持 Python、JavaScript 等多种语言

安装

pip install playwright

安装 Playwright 支持的浏览器

playwright install

从 HTML 中提取文字、标题、摘要和关键字

from playwright.sync_api import sync_playwright
from bs4 import BeautifulSoup  # 用于解析 HTMLdef extract_page_content(url):with sync_playwright() as p:# 启动浏览器browser = p.chromium.launch(headless=True)  # 可以设置为 headless=False 方便调试page = browser.new_page()# 导航到目标页面page.goto(url)page.wait_for_load_state("networkidle")  # 等待页面加载完成# 获取页面的 HTML 内容html_content = page.content()# 关闭浏览器browser.close()# 使用 BeautifulSoup 解析 HTMLsoup = BeautifulSoup(html_content, "html.parser")# 提取标题title = soup.find("title").text if soup.find("title") else "No title found"# 提取摘要（meta description）meta_description = soup.find("meta", attrs={"name": "description"})description = meta_description["content"] if meta_description else "No description found"# 提取关键字（meta keywords）meta_keywords = soup.find("meta", attrs={"name": "keywords"})keywords = meta_keywords["content"] if meta_keywords else "No keywords found"# 提取正文内容（去除 HTML 标签）text = soup.get_text(separator="\n", strip=True)return {"title": title,"description": description,"keywords": keywords,"text": text}url = "https://www.cnblogs.com/baby123/p/18772196"
result = extract_page_content(url)
print("Title:", result["title"])
print("Description:", result["description"])
print("Keywords:", result["keywords"])
print("Content:", result["text"])

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/898698.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

基于Ollama本地部署DeepSeek-r1:7b大语言模型

1、概述随着人工智能技术的飞速发展，越来越多的开发者和企业开始关注大语言模型（LLM）。这些模型以其强大的自然语言处理能力，在文本生成、问答、翻译、分类等多种任务中表现出色。然而，在实际使用中，许多人会遇到如何快速且高效地部署这些模型的问题。本文将介绍如何通过…

web116笔记（misc+lfi）

访问题目是一个视频，源码也没有什么有用信息提示：misc+lfi 下载视频，使用 010editor 打开，发现存在 png 图片的数据，搜索另存为过滤了蛮多的，不过没有过滤flag ，也没有过滤 filter 尝试构造语句?file=php://filter/resource=flag.php （直接读取）如果没有设置 fil…

Topic I: 3D VIsion Topic II: Robotics Topic IV: Reinforcement learning Linear Algebra Vector Space 向量空间Linear Combination 线性组合\(w=a_1v_1+a_2v_2+...+a_nv_n=\sum_i a_iv_i\)Span of Vectors\(v_i \in V_m\), \(w \in V_m\)Infinite-Ddimensional Vector Spac…

python的jieba

jieba 是一个广泛使用的 Python 中文分词库，主要用于将中文文本切分成独立的词语。 https://github.com/fxsjy/jieba 安装pip install jieba使用（1）分词import jieba # 分词 text = "我爱自然语言处理" words = jieba.cut(text, cut_all=False) # 精确模式 prin…

3. 创建一个菜单组件-DeepSeek辅助编程

在deepseek中输入：创建一个vue组件组件实现菜单的功能需要让调用该组件是可以自定义一些属性：mode:horizontal横向显示/vertical纵向显示，background-color,text-color,active-text-color,model:通过该model绑定菜单/model为MenuItem的数组 MenuItem由这些参数构成：inde…

微信支付相关配置

公众号相关配置地址：https://mp.weixin.qq.com/一、获取用户openid相关配置二、获取开发者ID(AppID)/开发者密码(AppSecret) 微信支付相关配置地址：https://pay.weixin.qq.com/需要先申请开通支付产品微信支付相关参数获取：一：获取商户号（商户号mach_id）三、获取证书…

华为开发者空间：基于DeepSeek+Cherry Studio构建模拟面试助手

通过实际操作，让开发者熟悉如何通过云主机部署DeepSeek，以及如何将DeepSeek与Cherry Studio结合起来帮助我们解决一些实际的问题。本文分享自华为云社区《华为开发者空间：基于DeepSeek+Cherry Studio构建模拟面试助手》，作者：开发者空间小蜜蜂。 1 案例介绍 CherryStudio …

信创环境元宇宙应用：3种虚拟团队管理工具前瞻测评

随着信息技术的不断发展，信创环境下的元宇宙应用正逐渐成为各行业关注的焦点。在这个虚拟的世界中，虚拟团队的管理变得至关重要。本文将对三种虚拟团队管理工具进行前瞻测评，探讨它们在信创环境元宇宙应用中的优势和潜在挑战。信创国产化项目管理解决方案禅道是一款国产的…

VSCode+Linux+GCC编译运行数据结构的C语言程序集

背景学习数据结构，写了很多C语言程序，这些C语言程序都保存在一个Git仓库中，以章节、实验内容为目录存放，形如：之前一直是通过gcc命令手动编译、运行，但随着程序逐渐复杂，希望简化构建过程，做到一键编译运行，同时支持断点调试。环境VSCode，安装了C/C++扩展 Linux GC…

信创项目管理认证解析：从SAFe到PMBOK的5大适配要点

在当今数字化时代，信创项目管理的重要性日益凸显。SAFe（Scaled Agile Framework，规模化敏捷框架）和 PMBOK（Project Management Body of Knowledge，项目管理知识体系）作为两种广泛应用的项目管理方法，如何实现它们之间的适配，以更好地推动信创项目的成功实施，是一个值…

mybatis如何使用注解方式，不使用xml

前言大家好，我是小徐啊。我们在使用springboot开发的时候，一般是结合mybatis来使用的。而且，我们一般使用mybatis的时候，都是使用xml的文件。不过，我之前在开发的时候，遇到了使用xml怎么也读取不到，可能是哪里配置的问题。这个时候，我就想到了使用注解的方式写sql，不…

SHP转WKT文件工具

SHP转WKT文件工具 *.shp转成wkt文件工具：将shp数据的图形转换成wkt工具参数配置：param.yml设置shape路径,路径参数设置：shapeFile: “你的路径”；注：路径请使用"\\"或者’/’ ;避免使用含中文的路径示例: shapeFile: “C:/Users/Administrator/Desktop/wm/wm.s…