自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 用HTMLParser解析网页时,有一部分网页节点无法解析

今天在用HTMLParser解析学校团委的网页时发现一个问题,无法解析我所需的节点,经过几次尝试后依然不行。这令我很困惑,在反复查看了节点过滤设置后也没发现什么问题。这令我万分不解,于是我把整张网页的所有节点都打印了出来,发现只得到部分节点还有不少节点没有解析出来,而我需要的节点正是在无法解析的节点中。在查了百度之后没有在网上发现相关的资料,特发此文,希望有达人可以解惑!!! PS: ...

2010-09-09 14:29:12 389

原创 用HTMLParser解析网页出现的小问题

用Heritrix抓取网站后,我用HTMLParser对抓取的网页进行解析。不可否认,HTMLParser的确是一个功能强大且使用方便的解析器。但我在使用中也发现了一些小问题,比如像这样:写道各有关二级学院、部门:<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /> 根据台科〔2...

2010-08-21 20:29:07 142

原创 Heritrix无法抓取二级网站

最近正在做一个基于Lucene+Heritrix的校园网的搜索引擎。因为是第一次使用Heritrix所以对他的配置不是很懂。在用Heritrix抓取网站时无法更深入的抓取二级网站。苦恼啊!!!...

2010-08-15 15:27:13 113

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除