毕业设计总结

最新推荐文章于 2020-06-20 13:55:50 发布

youngster21

最新推荐文章于 2020-06-20 13:55:50 发布

阅读量6.3k

点赞数

分类专栏：综合文章标签： arrays string 网络爬虫 filter exception 扩展

本文链接：https://blog.csdn.net/youngster21/article/details/5712167

版权

本文是对作者毕业设计的总结，主要讲述了如何基于Heritrix开源爬虫进行扩展，构建了一个针对竹藤领域的聚焦爬虫。作者在导师的建议下，对Heritrix进行扩展定制，实现了特定需求的网页过滤和链接抽取。同时，使用HTMLParser库处理网页数据，并实现了简单的搜索引擎。在这一过程中，作者掌握了Java编程、正则表达式、LAMP技术和jQuery的基本应用，深化了对网络爬虫原理的理解，并反思了设计思路。

摘要由CSDN通过智能技术生成

毕业答辩已经过去两个多星期，成绩良好，也没想冲优，考研之后越发的懒散。近日想想应该做个总结，从一个整体的角度来看待毕设，也许会有不一样的收获。

毕业设计题目是“面向竹藤领域的网络爬虫系统的研究与开发”，题目很长，因而有点小玄乎，糊弄人。导师名义上是一个老教授，实际上是与老教授同一个课题组的年轻老师。

--------------------------------------------------------------************------------------------------------------------------------

毕设的具体内容大致如下：

1.基于开源爬虫Heritrix进行扩展定制，形成一个符合特定需求（即面向竹藤领域）的聚焦爬虫(注：聚焦爬虫的工作流程比较复杂，需要根据一定的网页分析算法过滤与主题无关的网页，保存有用的连接并且添加到等待抓取得url对列中，并根据一定的搜索策略从等待队列中选择下一步要抓取的连接。重复着一个过程，直到满足一定条件为止。)。

本来个人想基于HttpClient和HTMLParser从头开始写爬虫，但导师考虑到爬虫的性能以及工作量的问题，建议基于已有的开源爬虫进行扩展。于是我对很多开源爬虫进行特性的对比，最终由于灵活的可扩展性而选择了Heritrix，简单的说，Heritrix是一个爬虫框架。

接下来的工作说难不难，说容易也不容易，个人认为重点难点在于了解Heritrix的体系结构---灵活的模块式结构。只有充分了解这一点，才会知道对哪个模块进行扩展，怎样扩展，为什么可以这样扩展。由于以前没接触过类似的工作，所以开始时候非常没有方向。幸好有个同学以前做过这方面的开发，而且Heritrix相关文档也比较多，毕设得以顺利进行。

图1：Heritrix体系结构

扩展工作则是按照特定需求编写两个类插入上图所示的Extractor Chain和Postprocess Chain，替换或者配合已有的类进行工作。因为同学做过这方面的工作，通过请教使得扩展没有太大的难度。我分别针对三个竹藤领域的重要网站写了Extractor抽取类，我觉得这样的抽取类没有多大的实用性，因为按照我的抽取策略，每个网站的域名不一样，结构也不一样，就必须写出对应的抽取类。

import java.io.BufferedWriter; import java.io.FileWriter; import java.io.IOException; import java.util.logging.Level; import java.util.logging.Logger; import java.util.regex.Matcher; import java.util.regex.Pattern; import org.apache.commons.httpclient.URIException; import org.archive.crawler.datamodel.CrawlURI; import org.archive.crawler.extractor.Extractor; import org.archive.crawler.extractor.Link; import org.archive.io.ReplayCharSequence; import org.archive.util.HttpRecorder; public class zhutengArticleExtractor extends Extractor{ private static Logger logger=Logger.getLogger(zhutengArticleExtractor.class.getName()); public zhutengArticleExtractor(String name) { this(name,"ChzhutengArticleExtractor"); } public zhutengArticleExtractor(String name,String description) { super(name,description); } public static final String PATTERN_ZHUTENG_ARTICLE1="/Article/Show.+"; public static final String PATTERN_ZHUTENG_ARTICLE2="/Article/Up.+"; public static final String PATTERN_A_HREF= "href=/"([^/"]*)/""; protected void extract(CrawlURI curi) { ReplayCharSequence cs=null; try{ HttpRecorder hr=curi.getHttpRecorder(); if ( hr == null ) { throw new IOException( "Why is recorder null here?" ); } cs = hr.getReplayCharSequence(); }catch(IOException e) { curi.addLocalizedError(this.getName(),e, "Failed get of replay char sequence "+curi.toString() +" "+e.getMessage()); logger.log(Level.SEVERE,&#