用HTMLParser解析网页出现的小问题

用Heritrix抓取网站后,我用HTMLParser对抓取的网页进行解析。不可否认,HTMLParser的确是一个功能强大且使用方便的解析器。但我在使用中也发现了一些小问题,比如像这样:

写道
各有关二级学院、部门 :<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
根据台科〔2009〕70号文件《关于2010年台州市科学技术重大贡献奖推荐工作的通知》(详见http://www.tzinfo.gov.cn/news.php?newsi=&id=2447&q=),2010年台州市科学技术重大贡献奖申报工作现已开始。台州市科学技术重大贡献奖实行限额推荐,我校的推荐名额为1名。要申报的老师请根据评奖条件,填写《台州市科学技术重大贡献奖推荐书》,连同附件于2010年3月15日前送交科研处,逾期恕不受理。申报材料包括推荐书(一式17份,电子文档一份)、附件2份。成果中涉及重大经济效益的需提供财税证明,请将推荐书正文一份和附件材料报送时装订成册。

 在解析文本信息的过程中,把XML的代码也当做文本信息抓取了出来。

 

有什么办法可以把它去掉呢?

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值