xml介绍
xml语言,可扩展的标记语言,这门语言它没有定义任何的标记,而标记是由使用者自己来定义,但是由于标签名称以及属性名称都由用户自己来命名,导致别人在使用的时候很不方便。又给xml语言定义了一些约束文档,这些约束文档就专门用来约束当前这个xml中能够书写的具体的标签以及属性等信息。
属性
在定义标签的时候,可以在标签上书写属性,属性是由key和alue值组成。属性名书写的时候也遵守标签名的规则。属性值也不能以数字开始。
属性和值之间使用=连接,属性值可以使用单引号也可以使用双引号。
文本和特殊字符
在编写XML文件时,有些内容可能不想让解析引擎解析执行,而是当作原始内容处理。
遇到此种情况,可以把这些内容放在CDATA区里,对于CDATA区域内的内容,XML解析程序不会处理,而是直接原封不动的输出。.
语法:<![CDATA[ 内容 ]]>
<![CDATA[
<gec>
<br/>
</gec>
]]>
对于一些单个字符,若想显示其原始样式,也可以使用转义的形式予以处理。
特殊字符
在XML中,有些字符如& 、<、 >、 "等代表了特定语法作用,如果要拿这些字符当作字符串内容,需要进行转义,否则XML解析会出错。这些转义的符号也叫实体引用
img
特殊指令
处理指令,简称PI (processing instruction)。处理指令用来指挥解析引擎如何解析XML文档内容。
处理指令必须以<?作为开头,以?>作为结尾,XML声明语句就是最常见的一种处理指令。
xml语法规则总结
所有xml元素必须有闭合标签;
Xml标签区分大小写;
Xml必须正确地嵌套顺序;
Xml文档必须有根元素(且只有一个);
Xml属性值须加引号 特殊字符必须转义——CDATA;
Xml中的空格、回车换行会被解析!
Java中的解析技术介绍
XML的解析方式分为四种:
DOM解析
SAX解析
JDOM解析
DOM4J解析
其中前两种属于基础方法,是官方提供的平台无关的解析方式,后两种属于扩展方法,它们是在基础的方法上扩展出来的,只适用于java平台。
DOM解析xml
@Test
public void get() throws Exception {
// 获取工厂实例对象
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
// 获取解析器对象
DocumentBuilder db = dbf.newDocumentBuilder();
// 解析xml获取dom对象
Document dom = db.parse("src/books.xml");
// 获取根元素:
Node node = dom.getFirstChild();
// 获取标签的名字
System.out.println(node.getNodeName());//books
// 获取到每个标签对象,都是一个element的实例对象
Element root = (Element) node;
// 获取books下面的所有book标签
NodeList nl = root.getElementsByTagName("book");
for (int i = 0; i < nl.getLength(); i++) {
// 获取到每个book标签对象
Element book = (Element) nl.item(i);
// NodeList book_child = book.getChildNodes();
//根据名字找到标签 <title>西游记</title>
Element title = (Element) book.getElementsByTagName("title").item(0);
Element author = (Element) book.getElementsByTagName("author").item(0);
Element price = (Element) book.getElementsByTagName("price").item(0);
// 获取name标签下的文本值
System.out.println(title.getTextContent());
// 获取标签上的属性值
System.out.println(title.getAttribute("id"));
// 获取author标签下的文本值
System.out.println(author.getTextContent());
// 获取price标签下的文本值
System.out.println(price.getTextContent());
System.out.println("-------------------");
}
}
SAX解析
@Test
public void read() throws Exception{
//获取工厂
XMLInputFactory factory = XMLInputFactory.newFactory();
//获取解析器
XMLEventReader reader = factory.createXMLEventReader(new FileInputStream("src/books.xml"));
//使用循环开始读取数据
while( reader.hasNext() ){
XMLEvent event = reader.nextEvent();
if(event.isStartElement()){// <
//获取当前这个标签
StartElement element = event.asStartElement();
//获取标签上的 id属性
Attribute attr = element.getAttributeByName(new QName("id"));
if( attr != null ){
System.out.println("id="+attr.getValue());
}
//判断当前的标签名是否是name或者author、price
if( element.getName().getLocalPart().equals("title") ){
XMLEvent text = reader.nextEvent();
System.out.println(text.asCharacters());
}else if( element.getName().getLocalPart().equals("author") ){
XMLEvent text = reader.nextEvent();
System.out.println(text.asCharacters());
}else if( element.getName().getLocalPart().equals("price") ){
XMLEvent text = reader.nextEvent();
System.out.println(text.asCharacters());
}
}
}
}
DOM4J解析
与利用DOM、SAX来解析xml相比,DOM4J 表现更优秀,具有性能优异、功能强大和极端易用使用的特点,只要懂得DOM基本概念,就可以通过dom4j的api文档来解析xml。dom4j是一套开源的api。实际项目中,往往选择dom4j来解析xml。如java有名的Hibernate等框架都使用到了dom4及解析。
步骤
1 在项目中加入dom4j.jar,加入类路径
2 读取src下的note.xml ,用inputStream
3 创建SaxReader对象 ,解析对象
4 调用read()返回一个文档Document
5 获得根元素 ,调用方法getRootElement
6 获取子元素 to元素
7 getText返回文本节点,打印内容
package com.gec.xml;
import java.io.InputStream;
import org.dom4j.Document;
import org.dom4j.Element;
import org.dom4j.io.SAXReader;
import org.junit.Test;
public class TestReadNote2 {
@Test
public void read() {
/*
* 1 在项目中加入dom4j.jar,加入类路径
* 2 读取src下的note.xml ,用inputStream
* 3 创建SaxReader对象 ,解析对象
* 4 调用read()返回一个文档Document
* 5 获得根元素 ,调用方法getRootElement
* 6 获取子元素 to元素
* 7 getText返回文本节点,打印内容
*/
try(InputStream is = TestReadNote2.class.getResourceAsStream("/note.xml")){
// 创建SaxReader对象 ,解析对象
SAXReader reader = new SAXReader();
// 调用read()返回一个文档Document
Document doc = reader.read(is);
//获得根元素 ,调用方法getRootElement
Element rootElement = doc.getRootElement();
// 获取子元素 to元素 <to>林志玲</to>
Element to = rootElement.element("to");
//getText返回文本节点,打印内容
String toContent = to.getText();
System.out.println(to.getName() + ":" + toContent);
//from
Element from = rootElement.element("from");
System.out.println(from.getName() + ":" + from.getText());
//title
String title = rootElement.element("title").getText();
System.out.println(title);
//简化
System.out.println(rootElement.elementText("heading"));
} catch (Exception e) {
e.printStackTrace();
}
}
}
注意:DOM和SAX解析不太常用了解就好,但是DOM4J解析比较常用必须掌握。