Nutch
wind_bell27
这个作者很懒,什么都没留下…
展开
-
Nutch项目配置1---内部网搜索(原)
http://lucene.apache.org/nutch/tutorial8.html有如下的介绍:RequirementsJava 1.4.x, either from Sun or IBM on Linux is preferred. Set NUTCH_JAVA_HOME to the root of your JVM installation. Apache's T...2007-05-15 17:28:53 · 131 阅读 · 0 评论 -
Hadoop入门
原文地址:http://blog.csdn.net/calvinxiu/archive/2007/02/09/1506112.aspxHadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同java程序员可以不考虑内存泄露一样, MapReduce的run-time系统会解决...2007-05-21 10:09:37 · 64 阅读 · 0 评论 -
Nutch应用
Nutch作为一款刚刚诞生的开源Web搜索引擎,提供了除商业搜索引擎外的一种新的选择。个人、企业都可通过Nutch来构建适合于自身需要的搜索引擎平台,提供适合于自身的搜索服务,而不必完全被动接收商业搜索引擎的各种约束。 Nutch的工作流程可以分为两个大的部分:抓取部分与搜索部分。抓取程序抓取页面并把抓取回来的数据进行反向索引,搜索程序则对反向索引进行搜索回答用户的请求,索引是联系这两者的纽带。...2007-05-21 10:57:15 · 128 阅读 · 0 评论 -
hadoop学习
MapReduce: Simplified Data Processing on Large Clusters http://labs.google.com/papers/mapreduce.html HTML:http://labs.google.com/papers/mapreduce-osdi04-slides/index.html Downloading and insta...2008-06-27 16:54:04 · 181 阅读 · 0 评论 -
Nutch项目配置2---外部网搜索(原)
首先看一下Nutch的整个工作流程下面解析http://lucene.apache.org/nutch/tutorial8.html中关于外部网搜索的部分中所描述的内容:Whole-web: Boostrapping the Web DatabaseThe injector adds urls to the crawldb. Let's inject URLsfrom the D...2008-06-05 16:47:15 · 234 阅读 · 0 评论 -
Hadoop学习笔记
原文出处:http://blog.csdn.net/heiyeshuwu/archive/2007/09/09/1778193.aspx 一、简要介绍这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里...2008-06-05 17:54:01 · 93 阅读 · 0 评论 -
Map Reduce - the Free Lunch is not over?
原文出处:http://www.mengyan.org/blog/archives/2006/11/15/138.html微软著名的C++大师Herb Sutter在2005年初的时候曾经写过一篇重量级的文章:”The Free Lunch Is Over: A Fundamental Turn Toward Concurrency in Software“,预言OO之后软件开发将要面临的...2008-06-05 18:12:10 · 197 阅读 · 0 评论