XPath用于在XML和HTML文档中提取和操作数据-编程知识

XPath用于在XML和HTML文档中提取和操作数据

news/2024/12/18 16:06:04/文章来源:https://www.cnblogs.com/java-note/p/18615199

一、概述

XPath（XML Path Language）是一门在XML文档中查找信息的语言，它也可用于HTML文档，因为HTML可以看作是XML的一种特殊形式。XPath通过路径表达式来选取XML/HTML文档中的节点或者节点集。

二、节点类型

在XPath中，有多种节点类型，主要包括以下几种：

元素节点：这是最常见的节点类型，例如在HTML中，<div>、<p>等标签对应的就是元素节点。例如在<div class="container">这个代码片段中，<div>就是一个元素节点。
属性节点：是元素节点的属性，比如对于<a href="https://example.com">，href及其值https://example.com构成一个属性节点，它属于<a>这个元素节点。
文本节点：元素节点中的文本内容。如<p>这是一段文本</p>，“这是一段文本”就是一个文本节点。

三、基本语法

选取节点
- 绝对路径：从根节点开始选取，路径以斜杠/开头。例如，在一个XML文档中，如果根节点是<bookstore>，要选取所有的<book>元素，XPath表达式可以是/bookstore/book。在HTML文档中，根节点是<html>，如果要选取<body>下的所有<div>元素，表达式可以是/html/body/div。
- 相对路径：不从根节点开始，而是从当前节点开始选取。例如，如果当前节点是<section>，要选取它内部的所有<p>元素，可以使用p这个相对路径表达式。
通配符
- *：可以匹配任何元素节点。例如/bookstore/*会选取bookstore根节点下的所有子元素。
- @*：可以匹配任何属性节点。例如//*[@*]会选取文档中带有任何属性的所有元素。
轴（Axes）
- 子元素轴（child）：默认情况下，XPath路径表达式选取的是子元素。例如/bookstore/book中的book是bookstore的子元素。
- 后代元素轴（descendant）：使用//表示。例如//book会选取文档中所有的book元素，无论它们在文档结构中的层次有多深。
- 父元素轴（parent）：可以用来选取当前节点的父节点。例如，如果当前节点是<p>，表达式parent::*会选取<p>的父元素。
- 祖先元素轴（ancestor）：可以选取当前节点的所有祖先节点。例如ancestor::div会选取当前节点的所有<div>类型的祖先节点。

四、在编程语言中的应用

Python

在Python中，可以使用lxml库来解析XML/HTML并使用XPath。首先需要安装lxml库，然后可以这样使用：

from lxml import etree# 解析XML或HTML文档
tree = etree.parse('example.xml')
# 使用XPath表达式选取节点
elements = tree.xpath('/bookstore/book')
for element in elements:print(element.text)

Java

在Java中，可以使用JAXP（Java API for XML Processing）结合XPath来处理。例如：

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import javax.xml.xpath.XPath;
import javax.xml.xpath.XPathConstants;
import javax.xml.xpath.XPathFactory;
import org.w3c.dom.Document;
import org.w3c.dom.NodeList;public class XPathExample {public static void main(String[] args) throws Exception {DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();DocumentBuilder builder = factory.newDocumentBuilder();Document document = builder.parse("example.xml");XPathFactory xpathFactory = XPathFactory.newInstance();XPath xpath = xpathFactory.newXPath();NodeList nodeList = (NodeList) xpath.evaluate("/bookstore/book", document, XPathConstants.NODESET);for (int i = 0; i < nodeList.getLength(); i++) {System.out.println(nodeList.item(i).getTextContent());}}
}

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.hqwc.cn/news/854858.html

如若内容造成侵权/违法违规/事实不符，请联系编程知识网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

没有域名如何申请SSL证书

SSL证书一般多应用于域名上，可以保证网站里面的数据不会被泄露，加强网站安全，也加强浏览者的信任度。但是有一种特殊的情况，在网站没有域名或者域名还没有准备好的时候，只有IP地址，能否安装SSL证书呢，答案是可以的，本文将介绍IP SSL证书的应用场景和申请方式。 IP SSL证…

《DNK210使用指南 -CanMV版 V1.0》第四十四章人脸68关键点检测实验

第四十四章人脸68关键点检测实验 1）实验平台：正点原子DNK210开发板 2）章节摘自【正点原子】DNK210使用指南 - CanMV版 V1.0 3）购买链接：https://detail.tmall.com/item.htm?&id=782801398750 4）全套实验源码+手册+视频下载地址：http://www.openedv.com/docs/board…

性能优化相关总结

一、性能优化要从何入手1. 让加载更快2. 让渲染更快下面看一下这两方面分别要怎么优化二、加载方面的优化想要页面加载更快，需要从资源体积、访问次数、网络入手1、减少资源体积压缩代码　　　　　　　2、减少访问次数资源合并多个js文件合并多个css文件合并多个小图标合并…

摄像机实时接入分析平台视频分析网关安防监控施工摄像头与录像机混搭需注意的要点总结

在现代安防监控系统中，摄像头和录像机的混搭使用已成为一种常态，这种组合不仅能够提升监控系统的灵活性，还能根据具体需求和预算进行优化配置。然而，为了确保系统的高效运行和最佳效果，有几个关键点需要在施工和配置过程中特别注意。以下是一些重要的考虑因素，它们将帮助…

冬季游戏协作挑战，6 款办公软件能否成为团队的坚实后盾？

在游戏行业的节日盛宴中，每一个新游戏的上线或重大更新都是一场与时间赛跑的挑战，需要开发团队、测试团队和运营团队如同精密齿轮般紧密协作。而可视化团队协作办公软件则成为了推动这一复杂机器高效运转的润滑剂。本文将站在全 J 人游戏公司的视角，深入剖析 6 款此类办公软…

打架监测报警摄像机

打架监测报警摄像机是一种专门用于监测和预警打架事件的安全设备。这种摄像机一般配备高清摄像头和智能分析算法，可以实时监测监控区域内的人员活动，并在检测到打架行为时立即触发警报系统。打架监测报警摄像机是现代安防领域中一种重要的监控设备，主要用于预防和打击暴力事…

火情监测报警摄像机

火情监测报警摄像机是一种专门用于监测火灾并发出警报的安全设备，通常安装在建筑物、工厂、仓库等易发生火灾的地方，用于实时监测火情并及时通知相关人员。火情监测报警摄像机是一种结合了视频监控和火灾报警功能的智能安全设备，旨在实时监测和检测火情，提前发现和预警火灾…

241218_GIS要素内点要素提取平均值

当一个面要素中有多个点要素时，需要提取点要素的平均值并赋值到面要素中方法使用空间连接空间连接存在一个功能右键字段-属性2.选择平均值本文来自博客园，作者：我在乎的，转载请注明原文链接：https://www.cnblogs.com/wzh/p/18615058

流动商贩乱摆摊占道智能监控系统

流动商贩乱摆摊占道智能监控系统核心在于深度学习算法的运用，流动商贩乱摆摊占道智能监控系统对高清摄像头捕捉到的图像进行深度分析，识别出违规撑伞、出店经营、车辆占道违停以及违规广告牌等行为。这些行为往往是城市管理中的顽疾，传统方法难以有效监管，而智能监控系统则…

鸿蒙开发之无须申请权限访问相册图片

访问相册图片介绍在应用开发中，很多场景需要我们需要访问相册中的图片。例如：上传头像、上传银行卡、身份证资料、扫描文件功能、美颜功能等所以访问相册里的图片成为我们必须要学习和掌握的内容。那如何访问相册图片呢？在HarmonyOS中，鉴于对用户隐私的高度保护，要方便…

鸿蒙开发之不申请权限写入图片到相册

写入图片到相册介绍在上一篇中，猫林老师给大家分享了如何在不申请权限的情况下读取相册内容。这一篇教大家如何写入图片到相册。这在应用开发中，也是一个很常见的场景，比如我们要做一个文件扫描的功能。那是不是得把扫描的结果保存到图库呢？再比如我们做一个美颜的功能，…

清明上河图密码 26 集电视剧 All In One

清明上河图密码 26 集电视剧 All In One 《清明上河图密码》2024年播出的中国大陆古装悬疑电视剧，改编自中国大陆作家冶文彪创作的同名小说，由电影《男欢女爱》的导演杨帆与《深渊宝藏》的导演熊琛联合执导，张颂文、白百何领衔主演，周一围、侯岩松特别主演，张耀、夏梦、林…

XPath用于在XML和HTML文档中提取和操作数据

相关文章