百度互联网新闻开放协议,详细见http://news.baidu.com/newsop.html
自己用java写了个使用jdom生成百度要求的 xml文件 的实例,生成供百度搜索引擎抓取新闻
package com.ucctv.util; import java.io.FileOutputStream; import java.io.IOException; import org.jdom.Document; import org.jdom.Element; import org.jdom.output.Format; import org.jdom.output.XMLOutputter; public class ProduceXMl { String text = "正文部分......"; public static void main(String[] args) throws IOException { Document doc = new Document(); //创建空白文档 Element root = new Element("document"); //根元素,标记整个XML文件内容的开始和结束 doc.setRootElement(root); //将该元素做为根元素 root.addContent(new Element("webSite").setText("u.cctv.com"));//站点地址 root.addContent(new Element("webMaster").setText("yf@ucctv.com"));//负责人员的Email root.addContent(new Element("updatePeri").setText("20"));//更新周期,以分钟为单位。搜索引擎将遵照此周期访问该页面, //使页面上的新闻更及时地出现在百度新闻中,此处为20分钟 Element item = new Element("item");//标记每篇新闻信息的开始和结束。标记内为单篇新闻信息,不包括新闻专题。 root.addContent(item); item.addContent(new Element("title").setText("失传的老北京口味"));//新闻标题 item.addContent(new Element("link").setText("http://u.cctv.com/html/index/chengshituijian/200806/03-7312.html"));//新闻url地址 item.addContent(new Element("description").setText(" 旧日北京有一歇后语为“甑儿糕一屉顶一屉”。" + "曾几何时,小贩们挑着甑,走街穿巷,随蒸随卖甑儿糕,成为北京街头一景"));//(选填)新闻内容简介 item.addContent(new Element("text").setText(text));//完整的新闻正文(仅包含正文文字,不包含HTML语言等其它字符)。 item.addContent(new Element("image").setText("http://u.cctv.com/uploads/userup/0806/251HS46140.jpg"));//新闻正文内相关图片, //采用绝对地址。若该篇新闻无相关图片,可以为空;若含有多张图片,请重复使用该标签 item.addContent(new Element("headlineImg").setText(""));//(选填)为有可能成为头条的新闻制作的头条图,采用绝对地址 item.addContent(new Element("keywords").setText("北京 文化 小吃"));//(选填)关键字 item.addContent(new Element("category").setText("城市推荐"));//(选填)新闻分类,以各自公司分类为主 item.addContent(new Element("author").setText("央视国际-旅游"));//(选填)新闻作者,可以为机构或个人 item.addContent(new Element("source").setText(""));//(选填)新闻来源,即原创媒体或其它机构 item.addContent(new Element("pubDate").setText("2008-7-1 15:56"));//新闻发布时间,精确到分钟 /* * 格式化输出 */ XMLOutputter outp = new XMLOutputter();//用于输出jdom 文档 Format format=Format.getPrettyFormat(); //格式化文档 format.setEncoding("gbk"); //默认的编码是utf-8 outp.setFormat(format); outp.output(doc,System.out); //输出文档 XMLOutputter XMLOut = new XMLOutputter(); XMLOut.output(doc, new FileOutputStream("test2.xml")); } }