首先按照教程http://blog.csdn.net/fonxian/article/details/48522479
安装HBase,安装的过程中发现搭建Nutch需要其他额外的几样工具,HBase、ZooKeep、Hadoop、Solr
,它们的分工是,Nutch负责抓取数据,HBase则负责将数据存储起来,Solr是负责建立索引,Hadoop则是为Nutch和HBase提供一个分布式的环境,面对大的数据量的时候,将抓取和存取工作分配给多个计算机来完成
一、HBase
1、HBase的配置信息主要在hbase-env.sh和hbase-site.xml两个文件,下面的是在单机环境下对hbase-site.xml的配置,中的目录,是以后HBase写数据的地方。如果不特殊配置,则会默认配置到/tmp下
<property>
<name>hbase.rootdir</name>
<value>file:///DIRECTORY/hbase</value>
</property>
1
2
3
4
2、将hbase写入环境变量
export HBASE_HOME=/root/habse
1
3、启动
./bin/start-hbase.sh
1
如果有提醒master running as process 25744. Stop it first.,说明HBase已经在运行中了,要关闭使用命令
jps,进程名为HMaster即为HBase的进程,使用kill+进程号,即可关闭HBase
4、创建表
root@fonxian-desktop:~/hbase/bin# ./hbase shell
hbase(main):001:0> create "mytable","row1"
1
2
二、Hadoop
部署方法
Hadoop —— Ubuntu单机环境部署Hadoop1.2.1
http://blog.csdn.net/fonxian/article/details/48519041
三、Solr
下载好Solr之后,输入下面的命令,即可,它要一直运行着,所以不要以为它自己会终止,就像在ubuntu下运行eclipse是一样的,终端要始终开着。
cd example
java -jar start.jar
1
2
四、Nutch
Nutch的配置文件都放在conf下,配置好之后,需要ant runtime,将nutch重新编译
Nutch的存储采用Gora来HBase、MySQL等,可以在ivy/ivy.xml中配置,选用自己想用的数据库
抓取的过程
1) 建立初始 URL 集
2) 将 URL 集注入 crawldb 数据库—inject
3) 根据 crawldb 数据库创建抓取列表—generate
4) 执行抓取,获取网页信息—fetch
5) 解析抓取的内容—parse segment
6) 更新数据库,把获取到的页面信息存入数据库中—updatedb
7) 重复进行 3~5 的步骤,直到预先设定的抓取深度。—这个循环过程被称为“产生/抓取/更新”循环
8) 根据 sengments 的内容更新 linkdb 数据库—invertlinks
9) 建立索引—index
---------------------
作者:睿智的河水
来源:CSDN
原文:https://blog.csdn.net/fonxian/article/details/48528297
版权声明:本文为博主原创文章,转载请附上博文链接!