【100天精通python】Day29:文件与IO操作_JSON文件处理

目录

 专栏导读 

一、XML文件概述

1. 标签和元素

2. 嵌套结构

3. 属性

4. 命名空间

5. CDATA节

6. 注释

 7. 验证与验证语言

8. 扩展性

二、XML文件处理常见操作

1. 解析XML文件

2. 创建和编辑XML文件

3. 修改XML文件

4. 查询XML元素

5  遍历XML元素

6. 删除XML元素

7. 使用lxml库

8. 处理XML命名空间

命名空间的基本概念

在XML中声明命名空间

使用XPath与命名空间

默认命名空间

处理多个命名空间

三、 XML文件操作常见问题与解决

1. XML文件不存在或无法打开

2. 解析错误

3. 查询元素不存在

4. 节点文本为空


 专栏导读 

专栏订阅地址:https://blog.csdn.net/qq_35831906/category_12375510.html


一、XML文件概述

XML(eXtensible Markup Language)是一种用于描述结构化数据的标记语言。它被广泛用于数据存储、传输和交换,适用于各种应用领域,如Web开发、配置文件、数据交换和数据存储等。XML的主要特点包括:

1. 标签和元素

XML使用标签(Tag)来标识数据的不同部分,每个标签包含在尖括号中,如<tag>。标签可以用来定义元素(Element),表示数据的具体部分。元素可以包含文本、属性、子元素等。

2. 嵌套结构

XML允许元素嵌套在其他元素内部,从而创建层次结构,用于表示复杂的数据关系。

<bookstore><book><title>XML Basics</title><author>John Smith</author></book><book><title>Advanced XML</title><author>Jane Doe</author></book>
</bookstore>

3. 属性

XML元素可以具有属性(Attributes),用于提供有关元素的附加信息。属性位于元素的开始标签内部。

<book title="XML Basics"><author>John Smith</author>
</book>

4. 命名空间

XML支持使用命名空间(Namespace)来避免元素名的冲突。命名空间通过为元素名称添加前缀来区分不同的命名空间。

<ns1:book xmlns:ns1="http://example.com/ns1"><ns1:title>XML Basics</ns1:title>
</ns1:book>

5. CDATA节

CDATA节允许在元素内部包含文本数据,即使其中包含特殊字符也不会被解析。

<description><![CDATA[This is some <b>bold</b> text.]]></description>

6. 注释

XML支持添加注释,用于对数据进行解释说明或标记。

<!-- This is a comment -->
<book><!-- Book information goes here -->
</book>

 7. 验证与验证语言

XML文档可以使用验证语言(如DTD、XML Schema、RELAX NG等)进行验证,以确保其结构和内容符合预期。

8. 扩展性

XML的设计初衷是具有极高的扩展性,允许用户根据需要定义自己的元素和结构,以满足特定的数据表示需求。

总之,XML是一种通用的、可扩展的数据表示格式,用于在不同应用和系统之间传输和存储数据。尽管XML在一些场景中逐渐被JSON、YAML等其他格式取代,但在某些情况下,仍然是非常有用和重要的数据交换工具。

二、XML文件处理常见操作

在Python中,处理XML文件涉及到多种常用操作。以下是一些常见的XML文件处理操作:

1. 解析XML文件

使用内置的xml.etree.ElementTree模块解析XML文件。

import xml.etree.ElementTree as ETtree = ET.parse("data.xml")
root = tree.getroot()# 遍历根元素的子元素
for child in root:print("Element:", child.tag)for sub_element in child:print("  Sub Element:", sub_element.tag, "Value:", sub_element.text)

2. 创建和编辑XML文件

使用xml.etree.ElementTree模块创建和编辑XML文件。

import xml.etree.ElementTree as ETroot = ET.Element("data")item1 = ET.SubElement(root, "item")
ET.SubElement(item1, "name").text = "John"
ET.SubElement(item1, "age").text = "30"item2 = ET.SubElement(root, "item")
ET.SubElement(item2, "name").text = "Alice"
ET.SubElement(item2, "age").text = "25"tree = ET.ElementTree(root)
tree.write("output.xml")

3. 修改XML文件

使用xml.etree.ElementTree模块可以修改XML文件

import xml.etree.ElementTree as ETtree = ET.parse("data.xml")
root = tree.getroot()# 修改数据
for child in root:if child.find("name").text == "John":child.find("age").text = "31"tree.write("modified.xml")

4. 查询XML元素

使用XPath表达式来查询和选择XML元素。

import xml.etree.ElementTree as ETtree = ET.parse("data.xml")
root = tree.getroot()# 使用XPath查询
for item in root.findall("./item[name='John']"):age_element = item.find("age")if age_element is not None:print("John's age:", age_element.text)

5  遍历XML元素

遍历XML文档的元素,以访问、处理和操作其中的数据。

# 遍历子元素
for child in root:print("Element:", child.tag)for sub_element in child:print("  Sub Element:", sub_element.tag, "Value:", sub_element.text)

6. 删除XML元素

可以使用remove()方法删除XML元素。

import xml.etree.ElementTree as ETtree = ET.parse("data.xml")
root = tree.getroot()# 删除元素
for item in root.findall("./item[name='Alice']"):root.remove(item)tree.write("updated.xml")

7. 使用lxml库

lxml是一个高效且功能强大的Python库,用于处理XML和HTML数据。它基于C语言的libxml2和libxslt库构建而成,提供了快速、灵活和易于使用的API,适用于解析、创建、修改和查询XML和HTML文档。这个完整的代码示例涵盖了lxml库的一些常见操作,帮助你理解如何使用lxml处理XML数据。

假设我们有一个名为data.xml的XML文件:

<root xmlns:ns1="http://example.com/ns1" xmlns:ns2="http://example.com/ns2"><ns1:item><ns1:name>John</ns1:name><ns1:age>30</ns1:age></ns1:item><ns2:item><ns2:name>Alice</ns2:name><ns2:age>25</ns2:age></ns2:item>
</root>

 下面是使用lxml库的一些常见操作示例:

from lxml import etree# 解析XML文件
tree = etree.parse("data.xml")
root = tree.getroot()# 定义命名空间
namespaces = {"ns1": "http://example.com/ns1", "ns2": "http://example.com/ns2"}# 查询并输出John的年龄
john_age = root.xpath("//ns1:item[ns1:name='John']/ns1:age", namespaces=namespaces)[0]
print("John's age:", john_age.text)# 遍历所有item元素
for item in root.xpath("//ns1:item", namespaces=namespaces):name = item.find("ns1:name", namespaces=namespaces).textage = item.find("ns1:age", namespaces=namespaces).textprint("Name:", name, "Age:", age)# 创建新元素
new_item = etree.Element("{http://example.com/ns1}item")
new_name = etree.SubElement(new_item, "{http://example.com/ns1}name")
new_name.text = "Eve"
new_age = etree.SubElement(new_item, "{http://example.com/ns1}age")
new_age.text = "28"# 添加新元素到根元素
root.append(new_item)# 修改Alice的年龄
alice_age = root.xpath("//ns2:item[ns2:name='Alice']/ns2:age", namespaces=namespaces)[0]
alice_age.text = "26"# 删除John的元素
john_item = root.xpath("//ns1:item[ns1:name='John']", namespaces=namespaces)[0]
root.remove(john_item)# 将修改写回XML文件
tree.write("output_lxml.xml", pretty_print=True)

        无论使用内置的xml.etree.ElementTree还是lxml库,处理XML文件时都要考虑数据的结构和格式,以确保正确地解析、创建、修改和操作XML数据。 

8. 处理XML命名空间

如果XML文件使用了命名空间,需要使用命名空间前缀来访问和操作元素。

namespaces = {"ns": "http://example.com/ns1"}
for element in root.findall("ns:book", namespaces):print("Book Title:", element.find("ns:title", namespaces).text)

         XML命名空间(Namespace)是一种机制,用于在XML文档中标识和区分不同来源的元素和属性,以避免名称冲突。命名空间在处理多个XML文档合并、数据交换和数据共享时非常有用。XML命名空间通过为元素和属性名称添加前缀来定义,使其在不同的命名空间中唯一。

命名空间的基本概念

  • 命名空间URI(Namespace URI): 命名空间的唯一标识符,通常是一个URL或URI,用于表示命名空间的名称。
  • 命名空间前缀(Namespace Prefix): 一个短字符串,用于在XML文档中标识使用了哪个命名空间。通常以xmlns关键字声明,如xmlns:prefix="namespace_uri"

在XML中声明命名空间

<root xmlns:ns1="http://example.com/ns1"><ns1:element>Content</ns1:element>
</root>

        在上面的例子中,xmlns:ns1="http://example.com/ns1"声明了一个名为ns1的命名空间前缀,与URI http://example.com/ns1 相关联。因此,ns1:element 中的 ns1 表示这个元素属于指定的命名空间。

使用XPath与命名空间

        XPath查询语句中的元素名也需要使用命名空间前缀来定位。

from lxml import etreetree = etree.parse("data.xml")
root = tree.getroot()namespaces = {"ns": "http://example.com/ns1"}
for element in root.findall("ns:element", namespaces):print("Element:", element.text)

默认命名空间

XML中还可以使用默认命名空间,但在XPath中使用默认命名空间稍有不同。默认命名空间在XPath中没有前缀。

<root xmlns="http://example.com/ns1"><element>Content</element>
</root>
from lxml import etreetree = etree.parse("data.xml")
root = tree.getroot()namespaces = {"default": "http://example.com/ns1"}
for element in root.findall(".//default:element", namespaces):print("Element:", element.text)

处理多个命名空间

如果XML中包含多个命名空间,需要在查询中使用相应的命名空间前缀。

<root xmlns:ns1="http://example.com/ns1" xmlns:ns2="http://example.com/ns2"><ns1:element>Content 1</ns1:element><ns2:element>Content 2</ns2:element>
</root>
from lxml import etreetree = etree.parse("data.xml")
root = tree.getroot()namespaces = {"ns1": "http://example.com/ns1", "ns2": "http://example.com/ns2"}
for element in root.findall("ns1:element", namespaces):print("Element from ns1:", element.text)
for element in root.findall("ns2:element", namespaces):print("Element from ns2:", element.text)

XML命名空间是一种重要的概念,特别是在处理多个XML文档合并、交换数据和共享数据时。通过正确理解和使用命名空间,可以避免名称冲突,确保数据的正确性和一致性。

三、 XML文件操作常见问题与解决

        处理XML文件时,可能会遇到一些特殊的异常情况,需要进行特殊的异常处理。以下是一些可能的特殊异常情况及其处理方法:

1. XML文件不存在或无法打开

问题: 当指定的XML文件不存在或无法打开时,会引发FileNotFoundError异常。

处理方法: 在打开文件之前,使用tryexcept语句捕获异常,进行相应的处理。

import xml.etree.ElementTree as ETtry:tree = ET.parse("data.xml")root = tree.getroot()
except FileNotFoundError:print("XML file not found.")
except ET.ParseError:print("Error parsing XML file.")

2. 解析错误

问题: 解析XML文件时,如果文件格式不符合XML规范,会引发xml.etree.ElementTree.ParseError异常。

处理方法: 捕获ParseError异常,进行错误处理。

import xml.etree.ElementTree as ETtry:tree = ET.parse("data.xml")root = tree.getroot()
except ET.ParseError:print("Error parsing XML file.")

3. 查询元素不存在

问题: 当使用XPath查询时,如果查询的元素不存在,会引发TypeErrorAttributeError等异常。

处理方法: 在使用查询结果之前,检查是否存在查询的元素,以避免引发异常。

import xml.etree.ElementTree as ETtree = ET.parse("data.xml")
root = tree.getroot()name_element = root.find("./item[name='NonExistentName']")
if name_element is not None:print("Name:", name_element.text)
else:print("Name not found.")

4. 节点文本为空

问题: 有时节点的文本可能为空,访问节点的text属性可能引发AttributeError异常。

处理方法: 在访问节点文本属性之前,使用if语句检查节点是否具有文本。

import xml.etree.ElementTree as ETtree = ET.parse("data.xml")
root = tree.getroot()age_element = root.find("./item[name='John']/age")
if age_element is not None and age_element.text:age = age_element.text
else:age = "Age not available"print("Age:", age)

处理XML文件时,要注意捕获特定的异常类型,并根据异常的类型进行适当的处理。这有助于在处理异常时提供更有用的错误信息和解决方案。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/57385.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Django进阶

1.模板 1.1 寻找html模板 TEMPLATES [{BACKEND: django.template.backends.django.DjangoTemplates,DIRS: [os.path.join(BASE_DIR, templates)],APP_DIRS: True,OPTIONS: {context_processors: [django.template.context_processors.debug,django.template.context_process…

【Java split】split() 函数分割空字符串后数组长度为1的原因以及规避措施(105)

问题现象: import java.util.ArrayList; import java.util.Arrays; import java.util.List;public class test06 {public static void main(String[] args) {// Java split()函数 分割空字符串长度为1的解释&#xff1b;String s2 "";String[] arr2 s2.split(&quo…

git 版本管理工具 学习笔记

git 学习笔记 目录 一、git是什么 二、创建仓库 三、工作区域和文件状态 四、添加和提交文件 五、回退版本 &#xff08;了解&#xff09; 六、查看差异 七、删除文件 八、.gitignore文件&#xff08;了解&#xff09; 九、github ssh-key配置 十、本地仓库和远程仓库内…

【RabbitMQ】golang客户端教程3——发布订阅(使用fanout交换器)

发布订阅 在上一个教程中&#xff0c;我们创建了一个工作队列。工作队列背后的假设是每个任务只传递给一个工人。在这一部分中&#xff0c;我们将做一些完全不同的事情——我们将向多个消费者传递一个消息。这就是所谓的“订阅/发布模式”。 为了说明这种模式&#xff0c;我们…

【Hystrix技术指南】(4)故障切换的运作流程

[每日一句] 也许你度过了很糟糕的一天&#xff0c;但这并不代表你会因此度过糟糕的一生。 [背景介绍] 分布式系统的规模和复杂度不断增加&#xff0c;随着而来的是对分布式系统可用性的要求越来越高。在各种高可用设计模式中&#xff0c;【熔断、隔离、降级、限流】是经常被使…

嵌入式传感器的接口:轮询的ADC驱动器

嵌入式开发工程师如何在现代嵌入式应用程序中创建一个接口&#xff0c;该接口将低级驱动程序实现细节与应用程序代码分离。该接口提供了一种体系结构抽象&#xff0c;它通过减少对硬件的依赖来提高应用程序代码的可伸缩性和可移植性。 现在&#xff0c;我们将基于在3种微控制器…

更新页面无法回显

需求与问题&#xff1a; 在菜品管理开发中&#xff0c;我需要修改菜品&#xff0c;第一步是回显页面&#xff0c;但在我再三确认代码无误的情况下依旧无法回显内容 问题发现与解决&#xff1a; 经过排查&#xff0c;我发现我的DishDTO内容如下&#xff1a; Data public clas…

基于Dlib库+SVM+Tensorflow+PyQT5智能面相分析-机器学习算法应用(含全部工程源码)+训练及测试数据集

目录 前言总体设计系统整体结构图系统流程图模型流程 运行环境Python 环境TensorFlow环境界面编程环境 模块实现1. 数据预处理2. 模型构建1&#xff09;定义模型结构2&#xff09;交叉验证模型优化 3. 模型训练及保存4. 模型测试1&#xff09;摄像头调用2&#xff09;模型导入及…

CentOS虚拟机 NAT模式连网

1、查看本地VMnet8的网络信息 cmd ipconfig2、编辑VMware虚拟网络编辑器 &#xff08;1&#xff09;打开网络编辑器 &#xff08;2&#xff09;打开NET设置 &#xff08;3&#xff09;修改网络配置 修改子网ip和windows查到的ip的最后一位不一样就行和子网掩码照抄 3、在VMw…

一生一芯1——windows与Ubuntu双系统安装

UltraISO下载 下载链接&#xff1a;https://pan.baidu.com/s/18ukDs6yL64qU6thYyZEo-Q?pwdo8he 提取码&#xff1a;o8he 一路傻瓜安装&#xff0c;安装后点击继续试用 Ubuntu系统下载 这里我使用的是官网的22.04版本&#xff0c;由于大于4G&#xff0c;无法上传至百度网盘…

windows .gitignore 加入文件名后 依然可以从git status中看到文件问题

最近在学git&#xff0c;对着b站的视频操作&#xff0c;结果很简单的添加.gitignore文件操作&#xff0c;up主的正常隐藏&#xff0c;我的却一直出问题。 百思不得其解&#xff0c;网上各种啥啥啥清缓存都没讲到点上。 最后发现是.gitignore文件有问题&#xff0c;windows默认…

Detector定位算法在FPGA中的实现——section1 原理推导

关于算法在FPGA中的实现&#xff0c;本次利用业余的时间推出一个系列章节&#xff0c;专门记录从算法的推导、Matlab的实现、FPGA的移植开发与仿真做一次完整的FPGA算法开发&#xff0c;在此做一下相关的记录和总结&#xff0c;做到温故知新。 这里以Detector在Global Coordina…