xpath解析html-编程知识

xpath解析html

news/2025/3/11 23:33:16/文章来源:https://www.cnblogs.com/CodeCraftsMan/p/18766508

安装lxml库

pip install lxml

具体使用方法

from lxml import etree
#1. 将本地的html文档中的源码数据加载到etree对象。
etree.parse('file_path')
#2. 将从互联网上获取的源码数据加载到etree对象中
etree.HTML(page_text)#其中page_text是响应的html数据

from lxml import etree# HTML 字符串
html_content = """
<html><body><div id="content"><p class="paragraph">Hello, World!</p><p class="paragraph">This is a test.<div>xiaohei</div></p><p class="paragraph1" title="xiaohei">This is another test.</p></div></body>
</html>
"""# 解析 HTML
tree = etree.HTML(html_content)
print(tree.xpath('//p'))# 获取所有 <p> 元素,返回[<Element p at 0x197374ecf80>, <Element p at 0x197374ecf00>, <Element p at 0x197374ecfc0>]
print(tree.xpath('//p[@class="paragraph"]'))#返回class为paragraph的p标签，[<Element p at 0x197374ecf00>, <Element p at 0x197374ecfc0>]
print(tree.xpath('//p/@class'))#返回所有p标签的class属性，['paragraph', 'paragraph', 'paragraph1']
print(tree.xpath('//p[@title="xiaohei"]/@class'))#返回['paragraph1']
print(tree.xpath('//p/text()'))#返回p标签的文本内容，['Hello, World!', 'This is a test.', 'This is another test.']
#如果用//text(),返回的是标签下的所有文本print('end')

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/897474.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

PowerShell实现全屏七彩渐变呼吸屏保

引言想做一下屏幕保护程序的效果-----全屏颜色渐变，类似呼吸灯的效果。就用Windows自带的PowerShell脚本。脚本预设好了七彩颜色，然后循环变化。首先我们先实现七彩循环切换的全屏效果，也就是不带渐变。要想实现全屏颜色填充，必须借助"窗口"。对于PowerShell而…

三剑客与正则系列-awk勇闯天下

1.awk概述四剑客特点擅长find 查找文件查找文件,与其他命令配合.grep/egrep 过滤过滤速度最快.sed 过滤,取行,替换,删除替换,修改文件内容,取行.awk 过滤,取行,取列,统计计算,判断,循环 ... 取列,取行,统计计算awk是一个语言,叫做单行脚本.2.概述 2.1.格式取出/etc/passw…

实验楼-Linux(ubuntu)

实验楼-Linux(ubuntu) 1. Linux的桌面系统2. 命令 --help显示更为简单的内容软/硬连接:ln硬连接ln 目的地硬连接名称硬连接的作用是允许一个文件拥有多个有效路径名，这样用户就可以建立硬连接到重要文件，以防止“误删”的功能。其原因如上所述，因为对应该目录的索引节点有一…

VHDL强制类型转换1、STD_LOGIC_VECTOR 转 INTEGER 先将STD_LOGIC_VECTOR根据需求使用signed()转为 SIGNED 或者使用 unsigned() 转为 UNSIGNED （signed() 和 unsigned() 在 numeric_std 中），然后使用 conv_integer() 或者 to_integer() 转为整数。 conv_integer() 和 to_in…

安装新系统的基础环境

安装新系统的基础环境 ubuntu从阿里云镜像上下载服务器版本系统,安装的时候出现curtin command in-target,需要把apt网址改为http://mirrors.163.com/ubuntu/下载man命令:apt install man看onenote笔记在~/.zshrc中最后一行加上这两行LANG=zh_CN.UTF-8 LANGUAGE=zh_CN.UTF-8cen…

Android Studio初使用

下载是困难，下载速度慢，了解了外网的知识，头一次知道。

第五章用户身份与文件权限

第五章用户身份与文件权限用户身份与能力身份分类管理员UID为0：系统的管理员用户。系统用户UID为1～999： Linux系统为了避免因某个服务程序出现漏洞而被黑客提权至整台服务器，默认服务程序会有独立的系统用户负责运行，进而有效控制被破坏范围。普通用户UID从1000开始：…

瑞典农业育种公司OlsAro融资开发人工智能作物育种平台

瑞典农业育种初创公司OlsAro（官网：https://olsaro.com/）致力于利用人工智能和尖端植物生物技术，开发能够抵御盐分、高温和干旱等环境压力的农作物品种。今年4月OlsAro获得250万欧元种子轮融资，其首款产品为耐盐小麦，在孟加拉国的盐碱条件下，与中度耐盐品种相比，新品种的…

常用命令三

1.0 git相关 1.1 git config // 配置全局用户名 git config --global user.name "Your Name" // 配置全局邮箱 git config --global user.email "mail@example.com" // 配置Git使用store方式来处理凭证（如用户名和密码）。 // 具体来说，它会将你的Git凭证…

3.11学习苍穹外卖学习笔记

今天前半部分完成了关于redis的基础的知识学习成功在java代码中操作redis数据库可以完成CRUD 完成了项目中店铺打烊营业的功能还未深入学习后半部分学习了微信小程序开发和微信登陆的功能目前正在学习了解到微信有完整的登录校验和流程

数据资产专题报告300+份集萃解读|附PDF下载

原文链接：https://tecdat.cn/?p=40764 在当今数字经济蓬勃发展的时代，数据资产已成为推动企业创新与经济增长的关键力量。本报告汇总解读聚焦于数据资产领域，深入剖析其在多方面的发展态势。从数据资源入表的实践情况出发，探究企业在数据资产核算方面的现状；进而分析数据…

Cropin推出首个实时生成式AI驱动的农业智能平台Sage

作为世界上最先进的粮食和农业人工智能平台，Cropin Technology宣布推出Sage，这是首个由Google Gemini提供支持的实时农业智能解决方案。Cropin Sage将世界农业典型场景转换为专有的基于网格33米、1010米或55公里的电子地图，以最新技术手段确保信息来源的时效性和准确性。这使…