Nutch第一次搭建部署总结

最新推荐文章于 2022-09-16 16:27:12 发布

wellway

最新推荐文章于 2022-09-16 16:27:12 发布

阅读量464

点赞数

分类专栏： java

java 专栏收录该内容

25 篇文章 0 订阅

订阅专栏

本文详细介绍如何在Ubuntu环境下配置Nutch、HBase、Hadoop和Solr，涵盖从安装到配置的全过程，并解释各组件在大数据处理中的角色，如Nutch抓取数据、HBase存储、Solr建立索引及Hadoop提供分布式处理。

摘要由CSDN通过智能技术生成

首先按照教程http://blog.csdn.net/fonxian/article/details/48522479
安装HBase,安装的过程中发现搭建Nutch需要其他额外的几样工具，HBase、ZooKeep、Hadoop、Solr
，它们的分工是，Nutch负责抓取数据，HBase则负责将数据存储起来，Solr是负责建立索引，Hadoop则是为Nutch和HBase提供一个分布式的环境，面对大的数据量的时候，将抓取和存取工作分配给多个计算机来完成

一、HBase
1、HBase的配置信息主要在hbase-env.sh和hbase-site.xml两个文件，下面的是在单机环境下对hbase-site.xml的配置，中的目录，是以后HBase写数据的地方。如果不特殊配置，则会默认配置到/tmp下

<property>
<name>hbase.rootdir</name>
<value>file:///DIRECTORY/hbase</value>
</property>
1
2
3
4
2、将hbase写入环境变量

export HBASE_HOME=/root/habse
1
3、启动

./bin/start-hbase.sh
1
如果有提醒master running as process 25744. Stop it first.,说明HBase已经在运行中了，要关闭使用命令
jps，进程名为HMaster即为HBase的进程，使用kill+进程号，即可关闭HBase
4、创建表

root@fonxian-desktop:~/hbase/bin# ./hbase shell
hbase(main):001:0> create "mytable","row1"
1
2
二、Hadoop
部署方法
Hadoop —— Ubuntu单机环境部署Hadoop1.2.1
http://blog.csdn.net/fonxian/article/details/48519041

三、Solr
下载好Solr之后，输入下面的命令，即可，它要一直运行着，所以不要以为它自己会终止，就像在ubuntu下运行eclipse是一样的，终端要始终开着。

cd example
java -jar start.jar
1
2
四、Nutch
Nutch的配置文件都放在conf下，配置好之后，需要ant runtime，将nutch重新编译
Nutch的存储采用Gora来HBase、MySQL等，可以在ivy/ivy.xml中配置，选用自己想用的数据库

抓取的过程
1) 建立初始 URL 集
2) 将 URL 集注入 crawldb 数据库—inject
3) 根据 crawldb 数据库创建抓取列表—generate
4) 执行抓取，获取网页信息—fetch
5) 解析抓取的内容—parse segment
6) 更新数据库，把获取到的页面信息存入数据库中—updatedb
7) 重复进行 3～5 的步骤，直到预先设定的抓取深度。—这个循环过程被称为“产生/抓取/更新”循环
8) 根据 sengments 的内容更新 linkdb 数据库—invertlinks
9) 建立索引—index

---------------------
作者：睿智的河水
来源：CSDN
原文：https://blog.csdn.net/fonxian/article/details/48528297
版权声明：本文为博主原创文章，转载请附上博文链接！