java之XML解析

最新推荐文章于 2023-09-07 17:24:24 发布

人生当苦

最新推荐文章于 2023-09-07 17:24:24 发布

阅读量244

点赞数

分类专栏： javaSE 文章标签： java网络编程

本文链接：https://blog.csdn.net/weixin_44260380/article/details/99871235

版权

javaSE 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

XML

XML介绍

可扩展标记语言

为何使用XML

数据文件内容没有统一标准，每个厂商都不同
W3C组织就设计了XML统一了数据文件标准，得到了业界广泛认可
XML具有可扩展性，可以支持任何数据
XML还具有统一的API，可以大大简化编程，使用方便
XML格式复杂、臃肿，有些场合已经使用JSON格式代替

XML基本语法

1、标记（tag、标签）

语法：

<标记名>  开始标记
</标记名> 结束标记

<标记名/> 自结束标记      //相当于上面两个<标记名></标记名>

例子：

<book>
</book>
<data/>

规则：

标记名区别大小写
标记名可以任意书写，也就是标记名可以扩展
可以使用中文标记名，但是不建议使用中文
XML文件只能有一个唯一的根标记（最外层只能写一个标记，作为根标记，里面可以写多层）
标记必须配对使用，自结束标记相当于一对标记
标记必须合理嵌套，不能交叉嵌套
标记的嵌套关系可以任意扩展

2、注释

语法：

<!-- 注释 -->

注意：XML文件不能使用java注释

3、内容

开始标记和结束标记之间的部分称为内容

可以是文本内容
可以是标记
可以是标记和文本的混合

4、元素（Element）

元素：<开始标记>内容</结束标记>

根标记和全部内容称为根元素，根元素只有一个
元素内容中的元素称为子元素
当前元素的上一层元素称为父元素
没有内容的元素称为空元素（自结束标签元素就是空元素）

5、属性（Attribute）

在元素的开始标记上声明属性
属性属于元素
在同一个开始标记里，属性的名不能重复
属性之前的书写没有顺序（无序）
写法name=“value” ，其中value必须写引号（单双引号都行）
属性的名称和个数可以扩展
属性的=左右不能加空格，但是属性之间要加空格
注意：如果有id属性，一般id的值是不同的，并且以字符开头（不会报错，但这是业界规范）

	<book id="b001" lang="zh">
		<name>平凡的世界</name>
		<author>路遥</author>
		<date></date>
	</book>
	<note>平凡的世界，平凡的我们，不平凡的唯有精神</note>
	<book lang="zh" id="b002">
		<name>黄金时代</name>
		<author>王小波</author>
	</book>

6、实体（Entity）替换

特殊字符需要使用实体替换（实体相当于Java中的转义字符）

<  替换为  &lt;
>  替换为  &gt;
&  替换为  &amp;
......
还有很多，记住这三个

注意：不要掉了最后的那个分号

	<book id="b001" lang="zh">
		<name>&lt;平凡的世界&gt;</name>
		<author>路遥</author>
		<date></date>
	</book>
	<book>
		<name>人&amp;永恒</name>
		<author>周国平</author>
	</book>

7、CDATA

CDATA 内部的特殊符号无需进行实体替换

语法：

<![CDATA[无需替换的内容]]>

CDATA不能嵌套使用

	<book>
		<name>人&amp;永恒</name>
		<author>周国平</author>
	</book>
	<note><![CDATA[
	    <人与永恒>我把与改成了&
	    if(age>0 && age<+∞){
	        System.out.println("我爱你");
	    }
	]]></note>

XML文件读取解析

1、XML解析工具

Dom4j、W3c、DOM、SAX、Jdom、XML、Stream

其中编码最便捷的就是Dom4j

Dom4j（XML文件读取API）

dom4j 读作dom for j

什么是Dom4j

dom4j 是第三方开源的XML API
利用这个API可以以非常简洁的方式访问XML文件
dom4j 底层依赖于文件流（dom4j 相当于高级流）

2、使用Dom4j（准备工作）

导入Dom4j 包

该包为第三方包，导入需要配置Maven中央仓库

ps. Maven中央仓库
各种开源组件包，Spring、MyBatis、Hibernate、Struts2、Dom4j等

3、获取Document对象

解析XML过程是通过获取Document对象，然后继续获取各个节点以及属性等操作，因此获取Document对象是第一步，大体说来，有三种方式：

（1）自己创建Document对象

通过Document的工具类 DocumentHelper 调用其工厂方法 createDocument() 返回一个document对象

		Document document = DocumentHelper.createDocument();
		/*
		 * Document对象可以通过addElement方法添加元素
		 * 返回值是添加后的元素信息，用Element类接收
		 * Element元素类，asXML()方法可以将元素按xml格式输出
		 */
		Element root = document.addElement("books");
		System.out.println(root.asXML());

（2）读取XML文件获取Document对象（常用）

SAXReader类：用于读取XML文件

Document类：定义了XML文档

		SAXReader reader = new SAXReader();
		//利用SAXReader读取book.xml文件
		//如果读取成功，就会创建一个Document对象，其结构是树形的
		//如果读取失败，则抛出异常（可能是xml文件格式错误或者文件找不到）
		Document doc = reader.read(new File("book.xml"));
		/*
		 * doc.asXML()
		 * 通过Document对象，调用asXML方法，将文件转化为XML格式
		 */
		System.out.println(doc.asXML());

（3）读取XML文本内容获取Document对象（将文本转换回文档对象）

通过Document的工具类DocumentHelper调用其工厂方法parseText()
该方法需要传入xml格式的字符串，返回一个document对象

		String xmlStr = "<books>......</books>";
		//通过Document的工具类DocumentHelper调用其工厂方法parseText()
		//该方法需要传入xml格式的字符串，返回一个document对象
		Document document1 = DocumentHelper.parseText(xmlStr);
		System.out.println(document1.asXML());

4、访问元素（方法API）

（1）从根元素作为入口

通过Document对象调用getRootElement()方法获取根节点元素，返回值为一个元素

Element getRootElement() 返回此文档的根元素

Element root = doc.getRootElement();

（2）搜索子元素：

搜索全部子元素，获得元素的全部子元素，返回一个元素列表
List<Element> elements()
```
List<Element> list =  root.elements();
```
搜索指定名字的全部子元素，获得一个元素列表
List<Element> elements(“指定元素名”)
```
List<Element> list =  root.elements("book");
```
搜索第一个指定名字的子元素，一般用在子元素名字唯一的时候，返回一个元素
Element element(“指定元素名”)
```
Element n = e.element("book");
```

（3）获取元素中的文本

String getText() 获取元素中的文本
String getTextTrim() 获取元素中的文本，并去除前后空白（一般用这个）
用元素对象调用，返回值为字符串

			//获取元素中的文本  （n为一个元素）
			//String name = n.getText();
			//获取元素中的文本，并去除前后空白（一般用这个）
			String name = n.getTextTrim();
			System.out.println(name);

（4）直接获取子元素中的文本

获取当前元素的子元素中存储的文本信息，将获取子元素再获取子元素文本两步合二为一了

String elementText(String name)
String elementTextTrim(String name) （去除空格）

			//获取子元素中的文本  （n为一个父元素）
			//String name = n.elementText();
			//获取子元素中的文本，并去除前后空白（一般用这个）
			String name = n.elementTextTrim();
			System.out.println(name);

（5）获取元素中的属性

String attributeValue(“指定属性”) 读取元素指定属性，通过包含属性的元素调用，返回字符串

			//e 是book元素，包含属性
			//读取元素指定属性的方法
			String id = e.attributeValue("id");
			System.out.println(id);

（代码）元素访问步骤

package xml;

import java.io.File;
import java.util.List;

import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;

public class GetBookName {
	public static void main(String[] args) throws DocumentException {
		//第一步：先创建SAXReader对象，用于读取File对象文件
		SAXReader reader = new SAXReader();
		//第二步：通过SAXReader对象读取XML的文件，
		//并创建一个Document对象接收返回值
		Document doc = reader.read(new File("books.xml"));
		//第三步：访问根节点
		//通过Document对象调用getRootElement()方法获取根节点元素，返回值为一个元素
		Element root = doc.getRootElement();
		//第四步：解析根节点，获取全部符合要求的所有子节点
		//注意：elements方法不传入参数，会返回所有子节点
		List<Element> list = root.elements("book");
		//第五步：循环遍历子节点元素集合，找出其中的书名元素
		for(Element e:list){
			//element() 获取符合要求的第一个子节点元素
			Element n = e.element("name");
			//第六步：对name子节点元素进行处理，转换为字符串
			//getText()  将元素转换为字符串
			//getTextTrim()  将元素转换为字符串，并去除两边空格
			String name = n.getTextTrim();
			System.out.println(name);
			//补充：第五步和第六步可以合二为一，直接访问子元素的文本
			String name1 = e.elementTextTrim("name");
			System.out.println("通过直接访问子元素文本获取："+name1);
			//补充：获取元素的属性
			String id = e.attributeValue("id");
			System.out.println("书籍id为："+id);
		}
	}
}

DOM和SAX解析器的区别

人生当苦

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
java之XML解析

XMLXML介绍可扩展标记语言为何使用XML数据文件内容没有统一标准，每个厂商都不同W3C组织就设计了XML统一了数据文件标准，得到了业界广泛认可XML具有可扩展性，可以支持任何数据XML还具有统一的API，可以大大简化编程，使用方便XML格式复杂、臃肿，有些场合已经使用JSON格式代替XML基本语法1、标记（tag、标签）语法：<标记名> 开始标记&l...
复制链接

扫一扫