Python学习笔记-17.09.27

Python学习笔记-17.09.25


Python3 XML解析


XML 指可扩展标记语言(eXtensible Markup Language),标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。XML 被设计用来传输和存储数据。我们在对软件、框架进行配置的时候就经常使用到XML文件,而在一些数据量较少的软件中,XML也可以作为数据库的替代品进行数据储存。

常见的XML编程接口有DOM和SAX,这两种接口处理XML文件的方式不同,使用场合也不同。


1.DOM(Document Object Model)

将XML数据在内存中解析成一个树,通过对树的操作来操作XML。

我在本次使用的XML文件是:

<?xml version="1.0" encoding="utf-8" ?>
<persons>
    <person>
        <name>zs</name>
        <age>12</age>
        <sex>男</sex>
    </person>
    <person>
        <name>ls</name>
        <age>14</age>
        <sex>女</sex>
    </person>
    <person>
        <name>ww</name>
        <age>11</age>
        <sex>男</sex>
    </person>
</persons>
使用DOM操作XML

from xml.dom.minidom import parse
domTree = parse("persons.xml")
print(domTree)
root = domTree.documentElement
print(root)
ps = root.getElementsByTagName("person")
for p in ps:
    print(p.getElementsByTagName("name")[0].childNodes[0].data)

我们先用minidom模块的parse()函数解析"persons.xml"得到一个Document对象,再用.documentElement找到它的根节点,以根节点为基准,找到它底下我们所需要的节点集合,再遍历查找。


2.SAX (simple API for XML )

python 标准库包含SAX解析器,SAX用事件驱动模型,通过在解析XML的过程中触发一个个的事件并调用用户定义的回调函数来处理XML文件。


from xml.sax import parse as saxparse
from xml.sax import ContentHandler
class Person:
    def __init__(self,name=None,age=None,sex=None):
        self.name = name
        self.age = age
        self.sex = sex
    def __str__(self):
        return "{0},{1},{2}".format(self.name,self.age,self.sex)
persons =[]
class Myh(ContentHandler):
    def __init__(self):
        self.person = None
        self.tag = None
    def startElement(self, name, attrs):
        self.tag = name
        if name == "person":
            self.person = Person()
    def characters(self, content):
        if self.tag =="name":
            self.person.name = content
        if self.tag =="age":
            self.person.age = content
        if self.tag =="sex":
            self.person.sex = content
    def endElement(self, name):
        if name =="person":
            persons.append(self.person)
        self.tag  =None
myh = Myh()
ps = saxparse("persons.xml",myh)
for p in persons:
    print(p)

SAX解析需要导入xml.sax模块

首先定义一个类person,用来接收xml文件中的数据。

因为sax解析需要一个事件解析器,所以我们定义一个类,继承ContentHandler来完成。

其中构造方法中的person是在解析时接收数据的临时变量,而tag是用来记录解析标签的名称,在其他方法中使用来起到控制作用。

startElement和endElement是在开始和结束解析一个标签时触发的事件,当开始解析时,我们判断这个标签是不是一段数据的开始,如果是,就创建一个新的对象准备接受数据,并在结束解析的时候将它添加到之前创建的List中。

在SAX解析中characters(content)方法十分重要,我们的数据提取就在这个方法中完成。

调用时机:

从行开始,遇到标签之前,存在字符,content的值为这些字符串。

从一个标签,遇到下一个标签之前, 存在字符,content的值为这些字符串。

从一个标签,遇到行结束符之前,存在字符,content的值为这些字符串。

标签可以是开始标签,也可以是结束标签。

    <person>
        <name>zs</name>
        <age>12</age>
        <sex>男</sex>
    </person>
拿这段xml代码来看,<person>和</person>之间,它的值就是:空行、zs、空行、12、空行、男、空行。

我们在提取数据时肯定不会需要这么多的空行,所以就用到了我们之前定义的tag,它记录了当前在解析的标签名称,所以在tag=我们所需的标签名称时,就把characters(content)的content,也就是当前两个标签之间的字符赋给之前创建的对象person对象。




评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值