自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

Nutch源代码解读--3

以上是Hadoop的基本流程,如果需要详细连接可以登入http://hadoop.apache.org阅读更加详细地资料。这里我对其先介绍下简要地。等下结合nutch里如何使用这些实现并行计算地。 Hadoop主要分为2个部分,一个是分布式文件系统,一个是MapReduce的编程模型或者说一个框架。MapReduce相信大家都会了解一点(http://labs.google.c...

2012-04-30 18:49:49 87

Nutch源代码解读--2

Nutch0.9代码详细分析之2 主要分析网页爬取之后的页面处理 前一次主要介绍了Nutch爬取网页的流程,在爬取完网页后返回一个ProtocalOutput对象,对爬行回来的信息进行了封装,包括ProtocalStatus返回的HTTP状态码,Content网页的主体内容等信息信息。在Fetcher中,如果我们继续往下看,会看到nutch根据不同的ProtocalStatus返...

2012-04-30 18:32:08 119

Nutch源代码解读--1

主要分析利用HTTP协议爬取爬取网页) 本身是研究搜索引擎地,对开源的NUTCH很感兴趣。但是网上的代码对于NUTCH的分析都十分有限,我希望能尽我的力量把NUTCH里的代码尽我所能分析给大家。本文主要从一个爬虫系统最底层的爬虫如何爬行一个网页做一个分析。这个是比较底层的,如果之前对NUTCH没有详细使用过或者看过一些代码的。可以先去网上看一些使用NUTCH的流程。再看我这里的...

2012-04-30 17:39:42 120

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除