XML
XML介绍
可扩展标记语言
为何使用XML
- 数据文件内容没有统一标准,每个厂商都不同
- W3C组织就设计了XML统一了数据文件标准,得到了业界广泛认可
- XML具有可扩展性,可以支持任何数据
- XML还具有统一的API,可以大大简化编程,使用方便
- XML格式复杂、臃肿,有些场合已经使用JSON格式代替
XML基本语法
1、标记(tag、标签)
语法:
<标记名> 开始标记
</标记名> 结束标记
<标记名/> 自结束标记 //相当于上面两个<标记名></标记名>
例子:
<book>
</book>
<data/>
规则:
- 标记名区别大小写
- 标记名可以任意书写,也就是标记名可以扩展
- 可以使用中文标记名,但是不建议使用中文
- XML文件只能有一个唯一的根标记(最外层只能写一个标记,作为根标记,里面可以写多层)
- 标记必须配对使用,自结束标记相当于一对标记
- 标记必须合理嵌套,不能交叉嵌套
- 标记的嵌套关系可以任意扩展
2、注释
语法:
<!-- 注释 -->
注意:XML文件不能使用java注释
3、内容
开始标记和结束标记之间的部分称为内容
- 可以是文本内容
- 可以是标记
- 可以是标记和文本的混合
4、元素(Element)
元素:<开始标记>内容</结束标记>
- 根标记和全部内容称为根元素,根元素只有一个
- 元素内容中的元素称为子元素
- 当前元素的上一层元素称为父元素
- 没有内容的元素称为空元素(自结束标签元素就是空元素)
5、属性(Attribute)
- 在元素的开始标记上声明属性
- 属性属于元素
- 在同一个开始标记里,属性的名不能重复
- 属性之前的书写没有顺序(无序)
- 写法name=“value” ,其中value必须写引号(单双引号都行)
- 属性的名称和个数可以扩展
- 属性的=左右不能加空格,但是属性之间要加空格
- 注意:如果有id属性,一般id的值是不同的,并且以字符开头(不会报错,但这是业界规范)
<book id="b001" lang="zh">
<name>平凡的世界</name>
<author>路遥</author>
<date></date>
</book>
<note>平凡的世界,平凡的我们,不平凡的唯有精神</note>
<book lang="zh" id="b002">
<name>黄金时代</name>
<author>王小波</author>
</book>
6、实体(Entity)替换
特殊字符需要使用实体替换(实体相当于Java中的转义字符)
< 替换为 <
> 替换为 >
& 替换为 &
......
还有很多,记住这三个
注意:不要掉了最后的那个分号
<book id="b001" lang="zh">
<name><平凡的世界></name>
<author>路遥</author>
<date></date>
</book>
<book>
<name>人&永恒</name>
<author>周国平</author>
</book>
7、CDATA
CDATA 内部的特殊符号无需进行实体替换
语法:
<![CDATA[无需替换的内容]]>
CDATA不能嵌套使用
<book>
<name>人&永恒</name>
<author>周国平</author>
</book>
<note><![CDATA[
<人与永恒>我把与改成了&
if(age>0 && age<+∞){
System.out.println("我爱你");
}
]]></note>
XML文件读取解析
1、XML解析工具
Dom4j、W3c、DOM、SAX、Jdom、XML、Stream
其中编码最便捷的就是Dom4j
Dom4j(XML文件读取API)
dom4j 读作dom for j
什么是Dom4j
- dom4j 是第三方开源的XML API
- 利用这个API可以以非常简洁的方式访问XML文件
- dom4j 底层依赖于文件流(dom4j 相当于高级流)
2、使用Dom4j(准备工作)
导入Dom4j 包
该包为第三方包,导入需要配置Maven中央仓库
ps. Maven中央仓库
各种开源组件包,Spring、MyBatis、Hibernate、Struts2、Dom4j等
3、获取Document对象
解析XML过程是通过获取Document对象,然后继续获取各个节点以及属性等操作,因此获取Document对象是第一步,大体说来,有三种方式:
(1)自己创建Document对象
通过Document的工具类 DocumentHelper 调用其工厂方法 createDocument() 返回一个document对象
Document document = DocumentHelper.createDocument();
/*
* Document对象可以通过addElement方法添加元素
* 返回值是添加后的元素信息,用Element类接收
* Element元素类,asXML()方法可以将元素按xml格式输出
*/
Element root = document.addElement("books");
System.out.println(root.asXML());
(2)读取XML文件获取Document对象(常用)
SAXReader类:用于读取XML文件
Document类:定义了XML文档
SAXReader reader = new SAXReader();
//利用SAXReader读取book.xml文件
//如果读取成功,就会创建一个Document对象,其结构是树形的
//如果读取失败,则抛出异常(可能是xml文件格式错误或者文件找不到)
Document doc = reader.read(new File("book.xml"));
/*
* doc.asXML()
* 通过Document对象,调用asXML方法,将文件转化为XML格式
*/
System.out.println(doc.asXML());
(3)读取XML文本内容获取Document对象(将文本转换回文档对象)
通过Document的工具类DocumentHelper调用其工厂方法parseText()
该方法需要传入xml格式的字符串,返回一个document对象
String xmlStr = "<books>......</books>";
//通过Document的工具类DocumentHelper调用其工厂方法parseText()
//该方法需要传入xml格式的字符串,返回一个document对象
Document document1 = DocumentHelper.parseText(xmlStr);
System.out.println(document1.asXML());
4、访问元素(方法API)
(1)从根元素作为入口
通过Document对象调用getRootElement()方法获取根节点元素,返回值为一个元素
Element getRootElement() 返回此文档的根元素
Element root = doc.getRootElement();
(2)搜索子元素:
-
搜索全部子元素,获得元素的全部子元素,返回一个元素列表
List<Element> elements()List<Element> list = root.elements();
-
搜索指定名字的全部子元素,获得一个元素列表
List<Element> elements(“指定元素名”)List<Element> list = root.elements("book");
-
搜索第一个指定名字的子元素,一般用在子元素名字唯一的时候,返回一个元素
Element element(“指定元素名”)Element n = e.element("book");
(3)获取元素中的文本
String getText() 获取元素中的文本
String getTextTrim() 获取元素中的文本,并去除前后空白(一般用这个)
用元素对象调用,返回值为字符串
//获取元素中的文本 (n为一个元素)
//String name = n.getText();
//获取元素中的文本,并去除前后空白(一般用这个)
String name = n.getTextTrim();
System.out.println(name);
(4)直接获取子元素中的文本
获取当前元素的子元素中存储的文本信息,将获取子元素再获取子元素文本两步合二为一了
String elementText(String name)
String elementTextTrim(String name) (去除空格)
//获取子元素中的文本 (n为一个父元素)
//String name = n.elementText();
//获取子元素中的文本,并去除前后空白(一般用这个)
String name = n.elementTextTrim();
System.out.println(name);
(5)获取元素中的属性
String attributeValue(“指定属性”) 读取元素指定属性,通过包含属性的元素调用,返回字符串
//e 是book元素,包含属性
//读取元素指定属性的方法
String id = e.attributeValue("id");
System.out.println(id);
(代码)元素访问步骤
package xml;
import java.io.File;
import java.util.List;
import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
public class GetBookName {
public static void main(String[] args) throws DocumentException {
//第一步:先创建SAXReader对象,用于读取File对象文件
SAXReader reader = new SAXReader();
//第二步:通过SAXReader对象读取XML的文件,
//并创建一个Document对象接收返回值
Document doc = reader.read(new File("books.xml"));
//第三步:访问根节点
//通过Document对象调用getRootElement()方法获取根节点元素,返回值为一个元素
Element root = doc.getRootElement();
//第四步:解析根节点,获取全部符合要求的所有子节点
//注意:elements方法不传入参数,会返回所有子节点
List<Element> list = root.elements("book");
//第五步:循环遍历子节点元素集合,找出其中的书名元素
for(Element e:list){
//element() 获取符合要求的第一个子节点元素
Element n = e.element("name");
//第六步:对name子节点元素进行处理,转换为字符串
//getText() 将元素转换为字符串
//getTextTrim() 将元素转换为字符串,并去除两边空格
String name = n.getTextTrim();
System.out.println(name);
//补充:第五步和第六步可以合二为一,直接访问子元素的文本
String name1 = e.elementTextTrim("name");
System.out.println("通过直接访问子元素文本获取:"+name1);
//补充:获取元素的属性
String id = e.attributeValue("id");
System.out.println("书籍id为:"+id);
}
}
}