XML解析

最新推荐文章于 2024-07-18 14:43:20 发布

yc2421

最新推荐文章于 2024-07-18 14:43:20 发布

阅读量220

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/yc2421/article/details/79105584

什么是XML？

XML 指可扩展标记语言（eXtensible Markup Language），标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。

XML 被设计用来传输和存储数据。

XML是一套定义语义标记的规则，这些标记将文档分成许多部件并对这些部件加以标识。

它也是元标记语言，即定义了用于定义其他与特定领域有关的、语义的、结构化的标记语言的句法语言。

1.SAX解析：事件驱动解析。不会在内存中加载整个文档，只会根据自己编写的事件保存数据

案列：

from xml.sax import ContentHandler
from xml.dom.minidom import parse
import parser
class Book:
    def __init__(self,bname=None,price=None,author=None):
        self.bname=bname
        self.price=price
        self.author=author
    def __str__(self):
        return '书名：{0}  价格：{1} 作者：{2}'.format(self.bname,self.price,self.author)
lst=[]
class mysaxxml(ContentHandler):
    def __init__(self,bok=None,tag=None):
        self.bok=bok
        self.tag=tag
    def startDocument(self):
        print('startDocument')
    def startElement(self, name, attrs):
        # 将一开始得到的元素节点名字赋值给tag
        self.tag=name
        # 开始时碰见标记book时创建对象并赋值给bok
        if name=='book':
            self.bok=Book()
        print('startElement')
    def characters(self, content):
        # tag获取到的标签分别判断，判断后再赋值
        if self.tag=='bname':
            self.bok.bname=content
        if self.tag=='price':
            self.bok.bname=content
        if self.tag=='author':
            self.bok.bname=content
        print('characters')
    def endElement(self, name):
        # 元素节点结束时如果遇到结尾的book，那么将这个对象添加到这个列表中，对象里面有3个属性值
        if name=='book':
            lst.append(self.bok)
            self.bok=None
        # 每判断一次属性就要将tag清空，比如先判断dname后，那么清空后它又能接着放price了
        self.tag=None
        print('endElement')
    def endDocument(self):
        print('endDocument')

bk=mysaxxml()
parse('../domxml/zy_1.xml',bk)
for i in lst:
    print(i)

2.dom解析：文档对象模型，把解析的xml整个加载到内存，组织成object树。这种方法遍历快，这种方法在加载过程中和sax有显著区别一个是部分加载，另一个是全部加载。

案列：

# DOM解析
from xml.dom.minidom import parse
# 得到整个dom文档树
doc=parse('./domxml/xl_1.xml')
# 得到根节点
root=doc.documentElement
# 根据标签名获取
student=root.getElementsByTagName('stu')
for p in student:
    # 得到stduent下面的name
    # 为什么('name')[0]后面还要加childNodes[0].data呢，不是直接.data，因为他以为后面还是节点，所以要获取
    print(p.getElementsByTagName('name')[0].childNodes[0].data)
    print(p.getElementsByTagName('age')[0].childNodes[0].data)
    print(p.getElementsByTagName('sex')[0].childNodes[0].data)
    print(p.getElementsByTagName('cj')[0].childNodes[0].data)

3.ElementTree解析，也叫元素树解析，和DOM解析差不多，不过方法要比DOM简单

案列：

# 元素树ElementTree解析
from xml.etree.ElementTree import*
class Student:
    def __init__(self,name,age,sex,cj):
        self.name=name
        self.age=age
        self.sex=sex
        self.cj=cj
    def __str__(self):
        return '姓名：{0} 年龄：{1} 性别：{2} 成绩：{3}'.format(self.name,self.age,self.sex,self.cj)
root=parse('./domxml/xl_1.xml')
people=root.findall('stu')
lst=[]
for p in people:
    person=Student(1,2,3,4)#一开始在类的定义中没有设置空值，所以这里可以随便传4个参数进去
    person.name=p.find('name').text
    person.age = p.find('age').text
    person.sex = p.find('sex').text
    person.cj = p.find('cj').text
    lst.append(person)
for i in lst:
    print(i)