用HTMLParser解析网页出现的小问题

最新推荐文章于 2021-06-25 03:01:26 发布

ybj_123

最新推荐文章于 2021-06-25 03:01:26 发布

阅读量142

点赞数

文章标签： Office PHP Microsoft XML 工作

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ybj_123/article/details/83697686

版权

用Heritrix抓取网站后，我用HTMLParser对抓取的网页进行解析。不可否认，HTMLParser的确是一个功能强大且使用方便的解析器。但我在使用中也发现了一些小问题，比如像这样：

写道

各有关二级学院、部门：<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
根据台科〔2009〕70号文件《关于2010年台州市科学技术重大贡献奖推荐工作的通知》（详见http://www.tzinfo.gov.cn/news.php?newsi=&id=2447&q=），2010年台州市科学技术重大贡献奖申报工作现已开始。台州市科学技术重大贡献奖实行限额推荐，我校的推荐名额为1名。要申报的老师请根据评奖条件，填写《台州市科学技术重大贡献奖推荐书》，连同附件于2010年3月15日前送交科研处，逾期恕不受理。申报材料包括推荐书（一式17份，电子文档一份）、附件2份。成果中涉及重大经济效益的需提供财税证明,请将推荐书正文一份和附件材料报送时装订成册。

在解析文本信息的过程中，把XML的代码也当做文本信息抓取了出来。

有什么办法可以把它去掉呢？

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用HTMLParser解析网页出现的小问题

用Heritrix抓取网站后，我用HTMLParser对抓取的网页进行解析。不可否认，HTMLParser的确是一个功能强大且使用方便的解析器。但我在使用中也发现了一些小问题，比如像这样：写道各有关二级学院、部门：&lt;?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" /&gt; 根据台科〔2...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。