Xpath解析

目录

Xpath的简介:

简介:

相关概念:

Xpath的使用:

安装:

用法:

第一步:准备html

第二步:将html构造出etree对象

第三步:使用etree对象的xpath()方法配合xpath表达式来完成对数据的提取


Xpath的简介:

简介:

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。

XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快地被开发者采用来当作小型查询语言。

HTML属于XML的一个子集,所以可以用Xpath解析XML

相关概念:

<book><id>1</id><name>技术人才</name><price>5w</price><author><nick>程序猿</nick><nick>码农</nick></author>
</book>
book,id,,name,price,author都被称为节点.
Id,name,price,author被称为book的子节点
book被称为id,name,price,author的父节点
id,name,price,author被称为同胞节点

Xpath的使用:

安装:

pip install lxml

用法:

第一步:准备html

html = """
<body><ul><li><a href="http://www.baidu.com">百度
</a></li><li><a href="http://www.google.com">谷歌
</a></li><li><a href="http://www.sogou.com">搜狗
</a></li></ul><ol><li><a href="qiche">汽车</a></li><li><a href="huoche">火车</a></li><li><a href="feiji">飞机</a></li></ol>
</body>
</html>
"""

第二步:将html构造出etree对象

from lxml import etree
html = """
<body><ul><li><a href="http://www.baidu.com">百度
</a></li><li><a href="http://www.google.com">谷歌
</a></li><li><a href="http://www.sogou.com">搜狗
</a></li></ul><ol><li><a href="qiche">汽车</a></li><li><a href="huoche">火车</a></li><li><a href="feiji">飞机</a></li></ol>
</body>
</html>
"""
tree = etree.HTML(html)

第三步:使用etree对象的xpath()方法配合xpath表达式来完成对数据的提取

from lxml import etree
html = """
<body><ul><li><a href="http://www.baidu.com">百度
</a></li><li><a href="http://www.google.com">谷歌
</a></li><li><a href="http://www.sogou.com">搜狗
</a></li></ul><ol><li><a href="qiche">汽车</a></li><li><a href="huoche">火车</a></li><li><a href="feiji">飞机</a></li></ol>
</body>
</html>
"""
tree = etree.HTML(html)
result = tree.xpath("/html/body/ul/li/a/@href")
print(result)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/563992.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Zookeeper(八)序列化与协议

目录 一 序列化与反序列化1.1 Jute序列化工具1.1 Recor接口1.2 OutputArchive和InputArchive 二 通信协议2.1 请求部分2.1.1 请求头2.2.2 请求体2.1.3 案例分析 2.2 响应部分2.2.1 响应头2.2.2 响应内容2.2.3 案例分析 官网&#xff1a;Apache ZooKeeper 一 序列化与反序列化 …

vector类详解及重要函数实现

&#x1fa90;&#x1fa90;&#x1fa90;欢迎来到程序员餐厅&#x1f4ab;&#x1f4ab;&#x1f4ab; 今日主菜&#xff1a;vector类 主厨&#xff1a;邪王真眼 所属专栏&#xff1a;c专栏 主厨的主页&#xff1a;Chef‘s blog 坚持下去&#xff0c;成功不是目的&a…

CleanMyMac X 4.15.1 for Mac 最新中文破解版 系统优化垃圾清理工具

CleanMyMac X for Mac 是一款功能更加强大的系统优化清理工具&#xff0c;相比于 CleanMyMac 4.15.1来说&#xff0c;功能增加了不少&#xff0c;此版本为4.15.1官方最新中英文正式破解版本&#xff0c;永久使用&#xff0c;解决了打开软件崩溃问题&#xff0c;最新版4.15.1版本…

c++常考基础知识(2)

二.c关键字 关键字汇总 c中共有63个关键字&#xff0c;其中包括int&#xff0c;char&#xff0c;double等类型关键字&#xff0c;if&#xff0c;else&#xff0c;while&#xff0c;do&#xff0c;等语法关键字&#xff0c;还有sizeof等函数关键字。 三.数据结构 1.数组&#x…

006——存储设备(基于liteos-a)

目录 存储设备驱动程序分析 1.1 字符设备和块设备 1.1.1 APP与驱动程序的交互 1. 字符设备驱动程序 2. 块设备驱动程序教 1.1.2 驱动程序结构体 1.1.3 注册函数 1. 字符设备驱动程序注册函数 2. 块设备驱动程序注册函数 1.2 MTD设备 1.3 块设备驱动程序为MTD开了一个…

Mac电脑高清媒体播放器:Movist Pro for mac下载

Movist Pro for mac是一款专为Mac操作系统设计的高清媒体播放器&#xff0c;支持多种常见的媒体格式&#xff0c;包括MKV、AVI、MP4等&#xff0c;能够流畅播放高清视频和音频文件。Movist Pro具有强大的解码能力和优化的渲染引擎&#xff0c;让您享受到更清晰、更流畅的观影体…

操作系统内功篇:硬件结构之CPU是如何执行任务的?

一 CPU是如何读写数据的&#xff1f; 1.1 CPU架构(组成) 当代CPU一般是多核心的&#xff0c;每个核心都有自己的一个L1和L2Cache&#xff0c;L3Cache是一个CPU所有核心共享的&#xff0c;一个CPU只有一个。L1Cache分为数据缓存和指令缓存。 CPU有三层高速缓存的目的就是将Cac…

2024跨境品牌出海指南:9大关键要素与注意事项

随着全球经济的不断发展&#xff0c;跨境电商成为品牌拓展国际市场的重要途径。然而&#xff0c;随之而来的是更为激烈的竞争和日益变化的市场环境。2024年&#xff0c;跨境卖家若想成功出海&#xff0c;必须在众多竞争者中脱颖而出。本文Nox聚星将和大家探讨2024年品牌出海过程…

带大家做一个,易上手的家常水煮肉片

首先 我们泡一些腐竹 如果不会泡 可以查看我的文章 泡软超时干腐竹方法 然后 拿一块猪瘦肉 切 相对厚一点点的薄片 一包豆芽 洗干净 肉片装在大碗中 倒入 小半勺食用盐 适量胡椒粉 倒入一勺生抽 适量蚝油 一点点老抽 一勺淀粉 抓拌均匀 切一些 姜末 蒜末 一把花椒 七八个干…

【C++】list类(使用方法和模拟实现)

一、标准库中的list类 1.1 list类介绍 1.2 list的常用接口 1.2.1 常用的构造函数 1.2.2 容量操作接口 &#xff08;1&#xff09;size &#xff08;2&#xff09;empty &#xff08;3&#xff09;resize 1.2.3 访问和遍历 &#xff08;1&#xff09;迭代器 &#xff…

Redis入门到实战-第三弹

Redis入门到实战 Redis数据类型官网地址Redis概述Redis数据类型介绍更新计划 Redis数据类型 官网地址 声明: 由于操作系统, 版本更新等原因, 文章所列内容不一定100%复现, 还要以官方信息为准 https://redis.io/Redis概述 Redis是一个开源的&#xff08;采用BSD许可证&#…

SpringCloud Alibaba Nacos简单应用(二)

&#x1f600;前言 本篇博文是关于SpringCloud Alibaba Nacos简单应用&#xff0c;希望你能够喜欢 &#x1f3e0;个人主页&#xff1a;晨犀主页 &#x1f9d1;个人简介&#xff1a;大家好&#xff0c;我是晨犀&#xff0c;希望我的文章可以帮助到大家&#xff0c;您的满意是我的…