- 博客(8)
- 资源 (2)
- 收藏
- 关注
原创 紧急通知:近期网站改版列表
监控发现,近期继网易即时修改了后台JSON对象格式后,相继有以下网站也进行了类似改版,请及时更新模板。网站列表:和讯即时 http://roll.hexun.com/roolNews_listRool.action?type=all东方互动:http://news.on.cc/js/china_fullList.js?t=1356187600026人民网即时:http://news
2013-01-12 10:19:19 764
原创 使用工具时正常,但在抓取过程中很久都没有更新数据的问题分析
在分析韩中央日报滚动新闻时发现使用工具时能够正常看到分析出来的标题,如下但在抓取结果页面中仅出现很少的条目由于系统会自动把URL相同的记录进行去重处理,因此考虑是否是由于这个原因导致的。分析原始页面发现,该网站使用JavaScript脚本实现页面跳转,而所有的href都设置为#,因此导致记录都被错误去重。总统对赦免亲戚•亲信不感到羞愧吗? 2013.01.10 14:27
2013-01-10 13:56:54 530
原创 一种特殊节点的XPATH表示
美国国务院网站(http://www.state.gov/r/pa/ei/speeches/index.htm)中的日期位置比较特别,如下所示January -01/08/13 Remarks at a Stakeout after UN Security Council Consultations on Sudan and South Sudan; U.S. Permanent Re
2013-01-09 21:38:54 554
原创 对于带命名空间定义的XML目标的处理
许多RSS源都使用了rdf命名空间,因此在进行XSLT转换时必须明确指定命名空间。以华尔街日报(http://cn.wsj.com/gbrsstest/rssall.xml?rand=7711219990160316)为例,进行分析添加该目标后,获取的数据内容如下:<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-synta
2013-01-09 20:05:07 868
原创 采集Google搜索结果
采集网址:http://www.google.com.hk/search?num=100&hl=zh-CN&tbm=nws&q=搜索引擎各参数含义:num:返回100条结果(最多100条)hl:语言tbm:搜索类别(nws表示搜索新闻类别)q:搜索的关键词打开SourceViewer,点击左下角的“原始文件”标签,在弹出的窗口中输入下面配置
2013-01-08 22:21:35 3048 1
原创 几种特殊时间格式的写法
除支持标准的Java时间格式外,系统还支持一些特殊格式,包括? 表示任意字符X 表示类似+00:00格式的时区long 表示1970年1月1日到现在的秒数LONG 表示1970年1月1日到现在的毫秒数下面举一些具体的例子:时间示例时间格式df-2012-11-21T15:32:12+00:00'df-'yyyy-MM-dd'T'HH:mm:s
2013-01-08 13:01:03 2665
原创 使用POST方式获取页面
问题网站:朝鲜中央通讯网址:http://www.kcna.kp/kcna.user.article.retrieveNewsViewInfoList.kcmsf问题描述:该网站支持多语言,默认返回朝鲜语。在网页上可以选择查看中文版,但在配置模板的时候,只返回朝鲜语。解决过程:经过分析,发现该网站是采用Post方式发送lang参数来获取不同语言的页面,相应操作如下。在Sou
2013-01-07 22:30:06 1573
原创 两种类型的页面分析
包含式页面11/11 19:16郭树清:RQFII投资额度拟将再增加2000亿元时间、URL、标题三个属性都被包含在同一个li标签内定位到li,然后分别对三个属性赋值即可并列式页面CrayCompletes Acquisition Of ApproNov 21, 2012 | Cray has completed thepreviously announce
2013-01-07 20:07:05 531
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人