Nutch第一次搭建部署总结

本文详细介绍如何在Ubuntu环境下配置Nutch、HBase、Hadoop和Solr,涵盖从安装到配置的全过程,并解释各组件在大数据处理中的角色,如Nutch抓取数据、HBase存储、Solr建立索引及Hadoop提供分布式处理。
摘要由CSDN通过智能技术生成

首先按照教程http://blog.csdn.net/fonxian/article/details/48522479 
安装HBase,安装的过程中发现搭建Nutch需要其他额外的几样工具,HBase、ZooKeep、Hadoop、Solr 
,它们的分工是,Nutch负责抓取数据,HBase则负责将数据存储起来,Solr是负责建立索引,Hadoop则是为Nutch和HBase提供一个分布式的环境,面对大的数据量的时候,将抓取和存取工作分配给多个计算机来完成

一、HBase
1、HBase的配置信息主要在hbase-env.sh和hbase-site.xml两个文件,下面的是在单机环境下对hbase-site.xml的配置,中的目录,是以后HBase写数据的地方。如果不特殊配置,则会默认配置到/tmp下

<property>
    <name>hbase.rootdir</name>
    <value>file:///DIRECTORY/hbase</value>
  </property>
1
2
3
4
2、将hbase写入环境变量

export HBASE_HOME=/root/habse
1
3、启动

./bin/start-hbase.sh
1
如果有提醒master running as process 25744. Stop it first.,说明HBase已经在运行中了,要关闭使用命令 
jps,进程名为HMaster即为HBase的进程,使用kill+进程号,即可关闭HBase 
4、创建表

root@fonxian-desktop:~/hbase/bin# ./hbase shell
hbase(main):001:0> create "mytable","row1"
1
2
二、Hadoop
部署方法 
Hadoop —— Ubuntu单机环境部署Hadoop1.2.1 
http://blog.csdn.net/fonxian/article/details/48519041

三、Solr
下载好Solr之后,输入下面的命令,即可,它要一直运行着,所以不要以为它自己会终止,就像在ubuntu下运行eclipse是一样的,终端要始终开着。

cd example
java -jar start.jar
1
2
四、Nutch
Nutch的配置文件都放在conf下,配置好之后,需要ant runtime,将nutch重新编译 
Nutch的存储采用Gora来HBase、MySQL等,可以在ivy/ivy.xml中配置,选用自己想用的数据库

抓取的过程 
1) 建立初始 URL 集 
2) 将 URL 集注入 crawldb 数据库—inject 
3) 根据 crawldb 数据库创建抓取列表—generate 
4) 执行抓取,获取网页信息—fetch 
5) 解析抓取的内容—parse segment 
6) 更新数据库,把获取到的页面信息存入数据库中—updatedb 
7) 重复进行 3~5 的步骤,直到预先设定的抓取深度。—这个循环过程被称为“产生/抓取/更新”循环 
8) 根据 sengments 的内容更新 linkdb 数据库—invertlinks 
9) 建立索引—index

 


--------------------- 
作者:睿智的河水 
来源:CSDN 
原文:https://blog.csdn.net/fonxian/article/details/48528297 
版权声明:本文为博主原创文章,转载请附上博文链接!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值