Python基础-XML(可扩展标记语言)

XML(可扩展标记语言)

  • 结构化文件存储
  • 为了解决不同设备之间信息交换
  • XML(eXtensible Markup Language)
    • 标记语言:语言中使用尖括号扩起来的文本字符串标记
    • 可拓展:用户可以自定义自己需要的标记
    • 例如
    <Teacher>
        自定义标记Teacher
        在两个标记之间任何内同都应该跟Teacher相关
    </Teacher>
    
    • 是w3c组织制定的一个标准
    • XML描述的是数据本身,即数据的结构和语义
    • HTML侧重于如何显示web页面中的数据
    • XML文档的构成
      • 处理指令(可以认为一个文件内只有一个处理指令)
        • 最多只有一行,
        • 且必须在第一行
        • 内容是xml本身处理和相关的一些声明或指令
        • 以xml关键字开头
        • 一般用于声明XML的版本和采用的编码
          • version属性是必须的
          • encoding属性是用来指出xml解释器使用的编码
      • 根元素(一个文件只有一个根元素)
        • 在整个xml文件中,可以把他就看作一个属性结构
        • 根元素有且只能有一个
      • 子元素
      • 属性
      • 内容
      • 注释
        • 起说明作用的信息
        • 注释不能嵌套在标签中
        • 只有在注释的开始和结尾使用双短横线
        • 三短横线只能出现在开头不能出现在结尾
    • 保留字符的处理
      • XML中使用的符号可能跟实际符号相冲突,典型的就是左右尖括号
      • 使用实体引用(EntityReference)来表示保留字符
          <score> score > 80 </score> #有错误,xml中不能出现>
           <score> score &gt; 80 </score> # 使用实体引用
      
      • 把含有保留字符的部分放在CDATA块内部,CDATA块把内部信息视为不需要转义
      <![CDATA[
          select name,age form student where score>80
      ]]>
      
      • 常用的需要转义的保留字符和对应实体引用
          - &:&amp;
          - <:&lt;
          - >:&gt;
          - ':&apos;
          - ":&quot;
          - 一共五个, 每个实体引用都以&开头并且以分号结尾
      
    • XML的命名规则
      • pascal命名法
      • 用单词表示,第一个字母大写
      • 大小写严格区分
      • 配对的标签必须一致
    • XML的命名空间
      • 为了防止命名冲突
       <Student>
            <Name>LiuYing</Name>
            <Age>23</Age>
      </Student>
      <Room>
        <Name>2014</Name>
        <Location>1-23-1</Location>
      </Room>
      
      • 如果归并上述两个内容信息,会产生冲突
      <Schooler>
          <Name>LiuYing</Name>
          <Age>23</Age>
          <Name>2014</Name>
          <Location>1-23-1</Location>
      </Schooler>
      
      • 为了避免冲突,需要给可能冲突的元素添加命名空间
      • xmlns:xml name space的缩写
        <Schooler xmlns:student="http://my_student" xmlns:room="http://my_room">
            <student:Name>LiuYing</student:Name>
            <Age>23</Age>
        <romm:Name>2014</room:Name>
        <Location>1-23-1</Location>
       </Schooler>
      
    • XML的访问
      • XML文件: student.xml
          <School>
              <Teacher desc="PythonTeacher" score="good">
              <Name>LiuDana</Name>
              <Age_1 Detail="Age for year 2010">18</Age_1>
              <Mobile>13260446055</Mobile>
              </Teacher>
              <Student>
              <Name Other="他是班长">ZhangSan</Name>
              <Age Detail="The yongest boy in class">14</Age>
              </Student>
              <Student>
              <Name>LiSi</Name>
              <Age>19</Age>
              <Mobile>15578875040</Mobile>
              </Student>
              <!--  这是一个例子而已  -->
          </School>
      
      • 读取
        • XML读取分两个主要技术,SAX,DOM
        • SAX(Simple API for XML)):
          • 基于事件驱动的API
          • 利用SAX解析文档设计到解析器和时间处理两部分
          • 特点:
            • 流式读取
        • DOM(Document Object Model)
          • 是W3C规定的XML变成接口
          • 一个XML文件在缓存中以树形结构保存,读取
          • 用途
            • 定位浏览XML任何一个节点的信息
            • 添加删除相应内容
          • mindom
            • minidom.parse(filename):加载读取的xml文件, filename也可以是xml代码
            • doc.documentElement:获取xml文档对象,一个xml文件只有一个对于的文档对象
            • node.getAttribute(attr_name):获取xml节点的属性值
            • node.getElementByTagName(tage_name):得到一个节点对象集合
            • node.childNodes:得到所有孩子节点
            • node.childNodes[index].nodeValue:获取单个节点值
            • node.firstNode:得到第一个节点,等价于node.childNodes[0]
              node.attributes[tage_name]
          • etree
            • 以树形结构来表示xml
            • root.getiterator:得到相应的可迭代的node集合
            • root.iter
              find(node_name):查找指定node_name的节点,返回一个node
              root.findall(node_name):返回多个node_name的节点
            • node.tag: node对应的tagename
            • node.text:node的文本值
            • node.attrib: 是node的属性的字典类型的内容
          • xml文件写入
          • 更改
            • ele.set:修改属性
            • ele.append: 添加子元素
            • ele.remove:删除元素
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值