10.格式化文件(一.xml)

# 结构化文件存储
- xml, json,
- 为了解决不同设备之间信息交换
- xml,
- json
# XML文件
- 参考资料
    - https://docs.python.org/3/library/xml.etree.elementtree.html
    - http://www.runoob.com/python/python-xml.html
    - https://blog.csdn.net/seetheworld518/article/details/49535285
  
- XML(eXtensibleMarkupLanguage), 可扩展标记语言
    - 标记语言: 语言中使用尖括号括起来的文本字符串标记
    - 可扩展:用户可以自己定义需要的标记
    - 例如:
          
            <Teacher> 
                自定义标记Teacher
                在两个标记之间任何内容都应该跟Teacher相关
            </Teacher>
    - 是w3c组织制定的一个标准
    - XML描述的是数据本身,即数据的结构和语义
    - HTML侧重于如何显示web页面中的数据
    
- XML文档的构成
    - 处理指令(可以认为一个文件内只有一个处理指令)
        - 最多只有一行
        - 且必须在第一行
        - 内容是与xml本身处理起相关的一些声明或者指令
        - 以xml关键字开头
        - 一般用于声明XML的版本和采用的编码
            - version属性是必须的
            - encoding属性用来支出xml解释器使用的编码
    - 根元素(一个文件内只有一个根元素)
        - 在整个xml文件中,可以把他看作一个树形结构
        - 根元素有且只能由一个
    - 子元素
    - 属性
    - 内容
        - 表明标签所存储的信息
    - 注释
        - 起说明作用的信息
        - 注释不能嵌套在标签里
        - 只有在注释的开始和结尾使用双短横线
        - 三短横线只能出现在注释的开头而不能用在结尾
        
                <name> <!-- wangdapeng -->   </name> #可以
                <name <!-- wangdapeng -->>   </name> #不可以,注释在标签内
                
                <!--my-name-by-wang--> #可以,注释内容可以有一个短横线
                <!--my--name--by--wang-->#不可以,双短横线只能出现在开头或结尾
                
                <!---my-name--> #可以, 三短横线只能出现在开头
                <!---my-name---> #不可以, 三短横线只能出现在开头        
                
- 保留字符的处理
    - XML中使用的符号可能跟实际符号相冲突,典型的就是左右尖括号
    - 使用实体引用(EntityReference)来表示保留字符
    
             <score> score>80 </score> #有错误,xml中不能出现>
             <score> score&gt;80</score> #使用实体引用
    - 把含有保留字符的部分放在CDATA块内部,CDATA块把内部信息视为不需要转义
    
              <![CDATA[
                 select name,age
                 from Student
                 where score>80
                 ]]>
                 
    - 常用的需要转移的保留字符和对应实体引用
    
            - &:&amp;
            - <:&lt;
            - >:&gt;
            - ':&apos;
            - ":&quot;
            - 一共五个, 每个实体引用都以&开头并且以分号结尾
            
- XML标签的命名规则
    - Pascal命名法
    - 用单词表示,第一个字母大写
    - 大小写严格区分
    - 配对的标签必须一直
    
- 命名空间
    - 为了防止命名冲突
        
              <Student>
                        <Name>LiuYing</Name>
                        <Age>23</Age>
                </Student>
                <Room>
                    <Name>2014</Name>
                    <Location>1-23-1</Location>
                </Room>
                      
    - 如果归并上述两个内容信息,会产生冲突
    
              <Schooler>
                        <Name>LiuYing</Name>
                        <Age>23</Age>
                    <Name>2014</Name>
                    <Location>1-23-1</Location>
                </Schooler>
                      
    - 为了避免冲突,需要给可能冲突元素添加命名空间
    - xmlns: xml name space 的缩写
    
    
              <Schooler xmlns:student="http://my_student" xmlns:room="http://my_room">
                        <student:Name>LiuYing</student:Name>
                        <Age>23</Age>
                    <romm:Name>2014</room:Name>
                    <Location>1-23-1</Location>
                </Schooler>


# XML访问

## 读取
- XML读取分两个主要技术,SAX, DOM
- SAX(Simple API for XML):
    - 基于事件驱动的API
    - 利用SAX解析文档设计到解析器和事件处理两部分
    - 特点:
        - 快
        - 流式读取
        
- DOM
    - 是W3C规定的XML编程接口
    - 一个XML文件再缓存中以树形结构保存,读取
    - 用途
        - 定位浏览XML任何一个节点信息
        - 添加删除相应内容
    - minidom
        - minidom.parse(filename):加载读取的xml文件, filename也可以是xml代码
        - doc.documentElement:获取xml文档对象,一个xml文件只有一个对于的文档对象
        - node.getAttribute(attr_name):获取xml节点的属性值
        - node.getElementByTagName(tage_name):得到一个节点对象集合
        - node.childNodes:得到所有孩子节点
        - node.childNodes[index].nodeValue:获取单个节点值
        - node.firstNode:得到第一个节点,等价于node.childNodes[0]
        - node.attributes[tage_name]
        - 案例v01
import xml.dom.minidom
# 负责解析xml文件
from xml.dom.minidom import parse

# 使用minidom打开xml文件
DOMTree = xml.dom.minidom.parse("student.xml")
#得到文档对象
doc = DOMTree.documentElement

# 显示子元素
for ele in doc.childNodes:
    if ele.nodeName == "Teacher":
        print("-------Node:{0}-----".format(ele.nodeName))
        childs = ele.childNodes
        for child in childs:
            if child.nodeName == "Name":
                # data是文本节点的一个属性,表示他的值
                print("Name: {0}".format(child.childNodes[0].data))
            if child.nodeName == "Mobile":
                # data是文本节点的一个属性,表示他的值
                print("Mobile: {0}".format(child.childNodes[0].data))
            if child.nodeName == "Age":
                # data是文本节点的一个属性,表示他的值
                print("Age: {0}".format(child.childNodes[0].data))
                if child.hasAttribute("detail"):
                    print("Age-detail: {0}".format(child.getAttribute("detail")))
    - etree 
        - 以树形结构来表示xml
        - root.getiterator:得到相应的可迭代的node集合
        - root.iter
        - find(node_name):查找指定node_name的节点,返回一个node
        - root.findall(node_name):返回多个node_name的节点
        - node.tag: node对应的tagename
        - node.text:node的文本值
        - node.attrib: 是node的属性的字典类型的内容
        - 案例v02
        
import xml.etree.ElementTree

root = xml.etree.ElementTree.parse("student.xml")
print("利用getiterator访问:")
nodes = root.getiterator()
for node in nodes:
    print("{0}--{1}".format(node.tag, node.text))



print("利用find和findall方法:")
ele_teacher = root.find("Teacher")
print(type(ele_teacher))
print("{0}--{1}".format(ele_teacher.tag, ele_teacher.text))


ele_stus = root.findall("Student")
print(type(ele_stus))
for ele in ele_stus:
    print("{0}--{1}".format(ele.tag, ele.text))
    for sub in ele.getiterator():
        if sub.tag =="Name":
            if "Other" in sub.attrib.keys():
                print(sub.attrib['Other'])
- xml文件写入
    - 更改
        - ele.set:修改属性
        - ele.append: 添加子元素
        - ele.remove:删除元素
        - 案例 v03
import xml.etree.ElementTree as et


tree = et.parse(r'to_edit.xml')

root = tree.getroot()

for e in root.iter('Name'):
    print(e.text)


for stu in root.iter('Student'):
    name = stu.find('Name')

    if name != None:
        name.set( 'test', name.text * 2)

stu = root.find('Student')

#生成一个新的 元素
e = et.Element('ADDer')
e.attrib = {'a':'b'}
e.text = '我加的'

stu.append(e)

# 一定要把修改后的内容写回文件,否则修改无效
tree.write('to_edit.xml')
    - 生成创建
        - SubElement, 案例v04
        - minidom 写入, 案例v05
        - etree创建, 案例v06
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值