java之XML解析

XML

XML介绍

可扩展标记语言

为何使用XML

  1. 数据文件内容没有统一标准,每个厂商都不同
  2. W3C组织就设计了XML统一了数据文件标准,得到了业界广泛认可
  3. XML具有可扩展性,可以支持任何数据
  4. XML还具有统一的API,可以大大简化编程,使用方便
  5. XML格式复杂、臃肿,有些场合已经使用JSON格式代替

XML基本语法

1、标记(tag、标签)

语法:

<标记名>  开始标记
</标记名> 结束标记 
<标记名/> 自结束标记      //相当于上面两个<标记名></标记名>

例子:

<book>
</book>
<data/>  

规则:

  1. 标记名区别大小写
  2. 标记名可以任意书写,也就是标记名可以扩展
  3. 可以使用中文标记名,但是不建议使用中文
  4. XML文件只能有一个唯一的根标记(最外层只能写一个标记,作为根标记,里面可以写多层)
  5. 标记必须配对使用,自结束标记相当于一对标记
  6. 标记必须合理嵌套,不能交叉嵌套
  7. 标记的嵌套关系可以任意扩展

2、注释

语法:

<!-- 注释 -->

注意:XML文件不能使用java注释

3、内容

开始标记和结束标记之间的部分称为内容

  1. 可以是文本内容
  2. 可以是标记
  3. 可以是标记和文本的混合

4、元素(Element)

元素:<开始标记>内容</结束标记>

  1. 根标记和全部内容称为根元素,根元素只有一个
  2. 元素内容中的元素称为子元素
  3. 当前元素的上一层元素称为父元素
  4. 没有内容的元素称为空元素(自结束标签元素就是空元素)

5、属性(Attribute)

  1. 在元素的开始标记上声明属性
  2. 属性属于元素
  3. 在同一个开始标记里,属性的名不能重复
  4. 属性之前的书写没有顺序(无序)
  5. 写法name=“value” ,其中value必须写引号(单双引号都行)
  6. 属性的名称和个数可以扩展
  7. 属性的=左右不能加空格,但是属性之间要加空格
  8. 注意:如果有id属性,一般id的值是不同的,并且以字符开头(不会报错,但这是业界规范)
	<book id="b001" lang="zh">
		<name>平凡的世界</name>
		<author>路遥</author>
		<date></date>
	</book>
	<note>平凡的世界,平凡的我们,不平凡的唯有精神</note>
	<book lang="zh" id="b002">
		<name>黄金时代</name>
		<author>王小波</author>
	</book>

6、实体(Entity)替换

特殊字符需要使用实体替换(实体相当于Java中的转义字符

<  替换为  &lt;
>  替换为  &gt;
&  替换为  &amp;
......
还有很多,记住这三个

注意:不要掉了最后的那个分号

	<book id="b001" lang="zh">
		<name>&lt;平凡的世界&gt;</name>
		<author>路遥</author>
		<date></date>
	</book>
	<book>
		<name>&amp;永恒</name>
		<author>周国平</author>
	</book>

7、CDATA

CDATA 内部的特殊符号无需进行实体替换

语法:

<![CDATA[无需替换的内容]]>

CDATA不能嵌套使用

	<book>
		<name>&amp;永恒</name>
		<author>周国平</author>
	</book>
	<note><![CDATA[
	    <人与永恒>我把与改成了&
	    if(age>0 && age<+∞){
	        System.out.println("我爱你");
	    }
	]]></note>

XML文件读取解析

1、XML解析工具

Dom4j、W3c、DOM、SAX、Jdom、XML、Stream

其中编码最便捷的就是Dom4j

Dom4j(XML文件读取API)

dom4j 读作dom for j

什么是Dom4j
  1. dom4j 是第三方开源的XML API
  2. 利用这个API可以以非常简洁的方式访问XML文件
  3. dom4j 底层依赖于文件流(dom4j 相当于高级流)

2、使用Dom4j(准备工作)

导入Dom4j 包

该包为第三方包,导入需要配置Maven中央仓库

ps. Maven中央仓库
各种开源组件包,Spring、MyBatis、Hibernate、Struts2、Dom4j等

3、获取Document对象

解析XML过程是通过获取Document对象,然后继续获取各个节点以及属性等操作,因此获取Document对象是第一步,大体说来,有三种方式:

(1)自己创建Document对象

通过Document的工具类 DocumentHelper 调用其工厂方法 createDocument() 返回一个document对象

		Document document = DocumentHelper.createDocument();
		/*
		 * Document对象可以通过addElement方法添加元素
		 * 返回值是添加后的元素信息,用Element类接收
		 * Element元素类,asXML()方法可以将元素按xml格式输出
		 */
		Element root = document.addElement("books");
		System.out.println(root.asXML());

(2)读取XML文件获取Document对象(常用)

SAXReader类:用于读取XML文件

Document类:定义了XML文档

		SAXReader reader = new SAXReader();
		//利用SAXReader读取book.xml文件
		//如果读取成功,就会创建一个Document对象,其结构是树形的
		//如果读取失败,则抛出异常(可能是xml文件格式错误或者文件找不到)
		Document doc = reader.read(new File("book.xml"));
		/*
		 * doc.asXML()
		 * 通过Document对象,调用asXML方法,将文件转化为XML格式
		 */
		System.out.println(doc.asXML());

(3)读取XML文本内容获取Document对象(将文本转换回文档对象)

通过Document的工具类DocumentHelper调用其工厂方法parseText()
该方法需要传入xml格式的字符串,返回一个document对象

		String xmlStr = "<books>......</books>";
		//通过Document的工具类DocumentHelper调用其工厂方法parseText()
		//该方法需要传入xml格式的字符串,返回一个document对象
		Document document1 = DocumentHelper.parseText(xmlStr);
		System.out.println(document1.asXML());

4、访问元素(方法API)

(1)从根元素作为入口

通过Document对象调用getRootElement()方法获取根节点元素,返回值为一个元素

Element getRootElement() 返回此文档的根元素

Element root = doc.getRootElement();

(2)搜索子元素:
  1. 搜索全部子元素,获得元素的全部子元素,返回一个元素列表
    List<Element> elements()

    List<Element> list =  root.elements();
    
    
  2. 搜索指定名字的全部子元素,获得一个元素列表
    List<Element> elements(“指定元素名”)

    List<Element> list =  root.elements("book");
    
    
  3. 搜索第一个指定名字的子元素,一般用在子元素名字唯一的时候,返回一个元素
    Element element(“指定元素名”)

    Element n = e.element("book");
    
    
(3)获取元素中的文本

String getText() 获取元素中的文本
String getTextTrim() 获取元素中的文本,并去除前后空白(一般用这个)
用元素对象调用,返回值为字符串

			//获取元素中的文本  (n为一个元素)
			//String name = n.getText();
			//获取元素中的文本,并去除前后空白(一般用这个)
			String name = n.getTextTrim();
			System.out.println(name);

(4)直接获取子元素中的文本

获取当前元素的子元素中存储的文本信息,将获取子元素再获取子元素文本两步合二为一了

String elementText(String name)
String elementTextTrim(String name) (去除空格)

			//获取子元素中的文本  (n为一个父元素)
			//String name = n.elementText();
			//获取子元素中的文本,并去除前后空白(一般用这个)
			String name = n.elementTextTrim();
			System.out.println(name);

(5)获取元素中的属性

String attributeValue(“指定属性”) 读取元素指定属性,通过包含属性的元素调用,返回字符串

			//e 是book元素,包含属性
			//读取元素指定属性的方法
			String id = e.attributeValue("id");
			System.out.println(id);

(代码)元素访问步骤
package xml;

import java.io.File;
import java.util.List;

import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;

public class GetBookName {
	public static void main(String[] args) throws DocumentException {
		//第一步:先创建SAXReader对象,用于读取File对象文件
		SAXReader reader = new SAXReader();
		//第二步:通过SAXReader对象读取XML的文件,
		//并创建一个Document对象接收返回值
		Document doc = reader.read(new File("books.xml"));
		//第三步:访问根节点
		//通过Document对象调用getRootElement()方法获取根节点元素,返回值为一个元素
		Element root = doc.getRootElement();
		//第四步:解析根节点,获取全部符合要求的所有子节点
		//注意:elements方法不传入参数,会返回所有子节点
		List<Element> list = root.elements("book");
		//第五步:循环遍历子节点元素集合,找出其中的书名元素
		for(Element e:list){
			//element() 获取符合要求的第一个子节点元素
			Element n = e.element("name");
			//第六步:对name子节点元素进行处理,转换为字符串
			//getText()  将元素转换为字符串
			//getTextTrim()  将元素转换为字符串,并去除两边空格
			String name = n.getTextTrim();
			System.out.println(name);
			//补充:第五步和第六步可以合二为一,直接访问子元素的文本
			String name1 = e.elementTextTrim("name");
			System.out.println("通过直接访问子元素文本获取:"+name1);
			//补充:获取元素的属性
			String id = e.attributeValue("id");
			System.out.println("书籍id为:"+id);
		}
	}
}

DOM和SAX解析器的区别

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值