Dom4j解析XML那些事

Dom4j是一个Java的XML API,类似于jdom,用来读写XML文件的。dom4j是一个非常非常优秀的Java XML API,具有性能优异、功能强大和极端易用使用的特点,同时它也是一个开放源代码的软件,可以在SourceForge上找到它.在项目开发的过程中可以参考docs文件夹的(帮助文档),找到index.html打开,点击Quick start可以通过帮助文档进行学习 dom4j进行xml的解析.

一、三种获得Document对象的方法:

1.读取XML文件,获得document对象              
       SAXReader  reader   = new SAXReader();                
       Document   document = reader.read(new File("test.xml"));  
2.解析XML形式的文本,得到document对象.  
       String text = "<div>i am a div.</div>";              
       Document document = DocumentHelper.parseText(text);  
3.主动创建document对象.  
       Document document = DocumentHelper.createDocument();             //创建根节点  
       Element root = document.addElement("root");  

二、节点对象操作的方法

1.获取文档的根节点.  
    Element root = document.getRootElement();  
2.取得某个节点的子节点.  
    Element element=node.element(“四大名著");  
3.取得节点的文字  
    String text=node.getText();  
4.取得某节点下所有名为“csdn”的子节点,并进行遍历.  
    List nodes = rootElm.elements("csdn");   
    for (Iterator it = nodes.iterator(); it.hasNext();) {     
        Element elm = (Element) it.next();    
        // do something  
     }  
5.对某节点下的所有子节点进行遍历.      
    for(Iterator it=root.elementIterator();it.hasNext();){        
        Element element = (Element) it.next();        
        // do something   
    }  
6.在某节点下添加子节点  
    Element elm = newElm.addElement("朝代");  
7.设置节点文字.  
    elm.setText("明朝");  
8.删除某节点.
    //childElement是待删除的节点,parentElement是其父节parentElement.remove(childElment);  
9.添加一个CDATA节点.Element contentElm =     infoElm.addElement("content");contentElm.addCDATA(“cdata区域”); 

三、节点对象的属性方法操作

1.取得某节点下的某属性    
    Element root=document.getRootElement();        //属性名name  
    Attribute attribute=root.attribute("id");  
2.取得属性的文字  
    String text=attribute.getText();  
3.删除某属性 
    Attribute attribute=root.attribute("size");    root.remove(attribute);  
4.遍历某节点的所有属性     
    Element root=document.getRootElement();        
    for(Iterator it=root.attributeIterator();it.hasNext();){          
           Attribute attribute = (Attribute) it.next();           
           String text=attribute.getText();          
           System.out.println(text);    
    }  
5.设置某节点的属性和文字.   
    newMemberElm.addAttribute("name", "sitinspring");  
6.设置属性的文字   
Attribute attribute=root.attribute("name");   attribute.setText("csdn");  

四、将文档写入XML文件

1.文档中全为英文,不设置编码,直接写入的形式.    
       XMLWriter writer = new XMLWriter(new  FileWriter("ot.xml"));   
       writer.write(document);    
       writer.close();  
2.文档中含有中文,设置编码格式写入的形式.  
       OutputFormat format = OutputFormat.createPrettyPrint();// 创建文件输出的时候,自动缩进的格式                    
       format.setEncoding("UTF-8");//设置编码  
       XMLWriter writer = new XMLWriter(newFileWriter("output.xml"),format);  
       writer.write(document);  
       writer.close();

五、字符串与XML的转换

java
//1.将字符串转化为XML
String text = "<csdn> <java>Java班</java></csdn>";
Document document = DocumentHelper.parseText(text);
//2.将文档或节点的XML转化为字符串.
SAXReader reader = new SAXReader();
Document document = reader.read(new File("csdn.xml"));
Element root=document.getRootElement();
String docXmlText=document.asXML();
String rootXmlText=root.asXML();
Element memberElm=root.element("csdn");
String memberXmlText=memberElm.asXML();

解析含<![CDATA[]]>的XML数据

实际开发努比亚论坛解析插件时遇到的情况,请求http://bbs.nubia.cn/xj_event-event_list_ajax.html?pc=&onlineclass=&city=&page=1&inajax=1&ajaxtarget=event1
页面获得http://bbs.nubia.cn/xj_event-event_list.html?fid=75页面的数据。

所有 XML 文档中的文本均会被解析器解析,只有 CDATA 区段(CDATA section)中的文本会被解析器忽略。

这似乎是一种网页反爬虫的简单有效的手段。然而其实只要取得CDATA里面的内容,再单独解析理论上就可以解析到真正的网页内容。待请求页面部分代码如下:
“`html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值