Nutch 笔记

最新推荐文章于 2024-11-04 16:42:18 发布

彷徨的石头

最新推荐文章于 2024-11-04 16:42:18 发布

阅读量576

点赞数

分类专栏： Nutch、Solr 文章标签：正则表达式 tomcat java 测试 jdk path

Nutch、Solr 专栏收录该内容

55 篇文章 0 订阅

订阅专栏

一.安装

1.安装jdk;(这就不说了)。

2.安装cygwin，选择install frominternet->选择一个cygwin的安装文件夹->选择cygwin的下载文件夹->direct connection，（在这多取消几次，知道后面的许多网址都出现），然后选择一个带cygwin的网址安装。（弹出警告确定就行）。选包的时候，选develdefault展开，需要选择gcc-core（左边的循环箭头），gcc-g++,gcc-mingw-core,gcc-mingw-g++,binutils,gdb,make.

然后点击安装就可以成功安装了。

3.到nutch官网下个apache-nutch-1.2-bin.zip，解压到cygwin的安装目录下。

二.配置

1.配置nutch，打开安装cygwin安装时生成的快捷方式，cd进入nutch-1.2下面。一直用cd .. （我用了两次，注意cd和..之间要有空格）然后用 pwd和ls 命令查看，看到nutch-1.2后用cd nutch-1.2进入。

输入bin/nutch 出来nutch命令的一些选项提示说明已成功一半。

修改nutch-1.2/conf/nutch-site.xml。加入

       <configuration>
         <property>
          <name>http.agent.name</name>
          <value>foxman</value>
          <description></description>
         </property>

</configuration>

修改nutch-1.2/conf/crawl-urlfilter.txt最后几行的代码修改成如下。（打开也许分不清楚倒数的行数，依照下面的样子该最后就行）指明我们抓取的网站是http://www.163.com/下的网站。
# accept hosts in MY.DOMAIN.NAME

+^http://([a-z0-9]*\.)*163.com/
# skip everything else
-.

在nutch-1.2下建立文件夹urls，然后在urls下面建立文件url.txt里面内容是http://www.163.com/ 注：你要抓取的网站

在cygwin中进入nutch-1.2目录执行

bin/nutchcrawl bin -dir crawl -depth 5 -threads 4 -topN 50 。

注：以上的爬去地址因为是后面不动，前面动，所以要加/,其实完全不是所有的都加，有些反而会出错，比如我的就是：

在url.txt中的是：http://en.wikipedia.org/wiki/Data_mining,后面绝对不能加/,在nutch-1.2/conf/crawl-urlfilter.txt中的设置是：

MY.DOMAIN.NAME

+^http://en.wikipedia.org/wiki/(($)?([a-z0-9A-Z])?(-)?(_)?($)?)*$

# skip everything else-.

注意每一行和下一行之间不能有空格，这里的正则表达式不一定加/,网上有些人胡扯，正则表达式的测试网址是：http://www.zhongguosou.com/computer_question_tools/test_regex.aspx。