java中使用jdom生成百度新闻抓取的xml文件

百度互联网新闻开放协议,详细见http://news.baidu.com/newsop.html
自己用java写了个使用jdom生成百度要求的 xml文件 的实例,生成供百度搜索引擎抓取新闻


package com.ucctv.util;

import java.io.FileOutputStream;

import java.io.IOException;



import org.jdom.Document;

import org.jdom.Element;

import org.jdom.output.Format;

import org.jdom.output.XMLOutputter;



public class ProduceXMl {

  



  String text  = "正文部分......"; 

  

  public static void main(String[] args) throws IOException {

   

   Document doc = new Document(); //创建空白文档

   

     

   Element root = new Element("document"); //根元素,标记整个XML文件内容的开始和结束

   doc.setRootElement(root); //将该元素做为根元素

   

   root.addContent(new Element("webSite").setText("u.cctv.com"));//站点地址

   root.addContent(new Element("webMaster").setText("yf@ucctv.com"));//负责人员的Email

   root.addContent(new Element("updatePeri").setText("20"));//更新周期,以分钟为单位。搜索引擎将遵照此周期访问该页面,

                                                            //使页面上的新闻更及时地出现在百度新闻中,此处为20分钟

     

   Element item = new Element("item");//标记每篇新闻信息的开始和结束。标记内为单篇新闻信息,不包括新闻专题。

   root.addContent(item); 

   

   item.addContent(new Element("title").setText("失传的老北京口味"));//新闻标题

   item.addContent(new Element("link").setText("http://u.cctv.com/html/index/chengshituijian/200806/03-7312.html"));//新闻url地址

   item.addContent(new Element("description").setText(" 旧日北京有一歇后语为“甑儿糕一屉顶一屉”。" +

     "曾几何时,小贩们挑着甑,走街穿巷,随蒸随卖甑儿糕,成为北京街头一景"));//(选填)新闻内容简介

   item.addContent(new Element("text").setText(text));//完整的新闻正文(仅包含正文文字,不包含HTML语言等其它字符)。

   item.addContent(new Element("image").setText("http://u.cctv.com/uploads/userup/0806/251HS46140.jpg"));//新闻正文内相关图片,

                              //采用绝对地址。若该篇新闻无相关图片,可以为空;若含有多张图片,请重复使用该标签

   item.addContent(new Element("headlineImg").setText(""));//(选填)为有可能成为头条的新闻制作的头条图,采用绝对地址

   item.addContent(new Element("keywords").setText("北京 文化 小吃"));//(选填)关键字

   item.addContent(new Element("category").setText("城市推荐"));//(选填)新闻分类,以各自公司分类为主

   item.addContent(new Element("author").setText("央视国际-旅游"));//(选填)新闻作者,可以为机构或个人

   item.addContent(new Element("source").setText(""));//(选填)新闻来源,即原创媒体或其它机构 

   item.addContent(new Element("pubDate").setText("2008-7-1 15:56"));//新闻发布时间,精确到分钟

      

   /*

    * 格式化输出

    */

   XMLOutputter outp = new XMLOutputter();//用于输出jdom 文档

   Format format=Format.getPrettyFormat(); //格式化文档

   format.setEncoding("gbk"); //默认的编码是utf-8

   outp.setFormat(format);

   outp.output(doc,System.out); //输出文档

   XMLOutputter XMLOut = new XMLOutputter();

   XMLOut.output(doc, new FileOutputStream("test2.xml"));

  }

 }
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值