实施Hadoop集群

一、引述

搜索引擎会遇到如何将大量的网页存储的问题。那么龙头老大Google就弄出了一个Google File System,一个分布式的存储系统,通过很多的小型PC机(很普通的计算机)分布式的将网页抓取、存储、调度,井井有条。

也会遇到很多的计算问题,比如搜索出一大堆的结果,那么应该向用户推荐哪些网页呢。就需要对网页的价值进行评估,在Google中是用PageRank计算出来的。PageRank的计算量是很大的,因为里面涉及到一个很大的矩阵,还涉及到特征向量的迭代求取,而矩阵的维度可能会达到10亿乘10亿。这么大的数据基本任何计算机都无法存储,而且里面的计算是现在任何计算机都算不出来的。Google就将这些工作分布到很多的节点计算机上,再汇总到一个中心机上,再分配计算,迭代计算,最终收敛到一个可以接受的值。

Hadoop的HDFS分布式文件系统,是Hadoop的两大支柱之一,另一个就是Map-Reduce,分布式计算系统。

 

 

Google还有一个很重要的思想:BigTable思想,比如将公司中的不管是部门信息还是员工信息还是什么信息的,原来都是分表存放,现在都放在一张表中存储。主要用于存储倒排索引,倒排索引可加快索引的速度。

Hadoop也山寨了一个BigTable,叫HBase。

 

 

二、参考书介绍

第一本:刘鹏编写。类似于学习笔记,比较简单,实例较多,比较友好,基本都能看懂。缺点就是有一些不严谨,比如hadoop的安装,按照他将的安装步骤会安不出来。有一些关键的环节是错的,缺一些东西。

第二本:陆家恒编写。写得比较好,但是内容比较呆板,初学者看起来比较费劲,讲了一些底层原理性的东西,如果计算机基础不错,且用Hadoop做过一些东西,看这本书不错。


这本书会拿出一些源代码进行剖析,深入的将HDFS的原理,可能会改动一些源代码来满足我们的需求(开源,可以自己改动),比较适合想往深处学的人,可以让你从一个操作者或维护者过渡到一个开发者。

 

 

 

三、准备与配置安装环境

最好安装三个节点,可以是真实物理机,也可以是虚拟机。虚拟机推荐VMware。4核,8G内存。


ESXI:是一张光盘,可以在裸机上安装。

ssh:是服务器群节点之间链接一定要用的。如果没有,则无法组建集群。

vi:编辑器,如果不装,则无法编辑。在hadoop中,我们要用vi去编辑很多配置文件,如果不安就完蛋了。

perl:有些脚本是用perl写的,如果不装perl,这些脚本就跑不了。

 

Linux和JDK环境准备好后,就可以安装Hadoop了。

 

 

 

四、三种运行模式


单机模式:基本不用,因为没有设么用途。

伪分布模式:安装与完全分布式模式只差一两个步骤,几乎没什么区别。如果电脑性能不太好的话,可以选择使用这种模式安装。

完全分布式:真正的Hadoop安装。就是前面所说的最少三个节点的安装模式。

 

 

 

五、伪分布式安装和配置步骤


1,下载Hadoop:根据地址可以找到对应的包


2,解压Hadoop


3,配置文件


(1)conf/hadoop-env.sh文件:

用vi打开这个文件,


这个文件的详细配置参见Hadoop权威指南的p269。

 

(2)修改core-site.xml文件:


fs.default.name:用于指定NameNode的IP地址和端口。通过这个配置就可以知道整个Hadoop集群他的名称节点在什么地方,以及他的监听端口在哪里,然后就可以知道怎样跟他进行联系了。

 

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

这样配置说明NameNode工作在本机,在 9000端口监听。

 

(3)配置hdfs-site.xml文件:

这个文件指出数据节点(DataNode)的数据应该放在哪个目录里面。


hdfs-site.xml文件中常用的配置参数:


(4)修改mapred-site.xml文件:



4,配置ssh,生成密钥:

目的:使到ssh可以免密码链接localhost。


六、分布式安装和配置步骤

1,配置host文件


2,建立一个专门运行hadoop的用户。

以后我们会登陆这个用户,用他进行hadoop的启动、运行、管理的工作。


3,ssh配置


4,分发ssh公钥


ssh原理:


ssh通讯原理解析:

(1),客户机向服务器通过服务器的默认端口发送链接请求,

(2),服务器接收到请求后会把他的公钥发送给客户端,

(3),客户端接收到公钥后,再自己生成一个本次会话通讯密钥,并用服务器的公钥将这个通讯密钥加密,发送给服务器。由于是用服务器的公钥加密,只能由服务器自己的密钥解密,而密钥只有服务器自己知道,别人即使截获了,也无法解密,也就无法获取本次会话密钥。

(4),服务器接收到用公钥加密的会话密钥后,用自己的私钥解密,可以解除本次会话密钥。至此通讯双方都知道了这个通讯密钥。服务器再给客户端发送请求,请求链接的用户名和密码。

(5),客户端用本次会话密钥加密用户名和密码,发送给服务器。

(6),服务器接收到数据后,用本次会话密钥进行解密,解除提交的用户名和密码,进行核查,核查通过则给客户端发送接受请求的响应,否则给客户端发送拒绝请求的响应。

 

免密码的ssh原理:

如上面的分发ssh公钥所示。

 

5,修改core-site.xml、hdfs-site.xml、mapred-site.xml

在这里要注意把localhost改为响应的主机ip地址,因为现在是完全分布配置。

还要注意在hdfs-site.xml文件中要将复制文件的份数增加,因为在伪分布下只有一台主机,份数是1 ,现在是完全分布,不止一个主机,所以要增加。

mapred-site.xml中,要将localhost改成JobTracker所在的节点的ip地址。

core-site.xml中,也要将localhost改成当前节点所在的ip地址。

改好存盘即可。

 

6,修改master和slave文件


7,向各个节点复制hadoop


8,格式化NDFS

这一步是干什么呢?它在名称节点上面建立一系列的结构,用户存放整个HDFS的元数据。


9,启动守护进程

这一步启动hadoop集群。在名称节点下的hadoop的安装目录执行bin/start -all.sh,这个是启动脚本。启动后会有一些信息,告诉你每个节点正在启动哪些进程。如果没有警告或失败之类的信息,启动一般就OK了。


10,检测守护进程启动情况


七、在windows下安装Hadoop

在windows下也能安装hadoop,如果你的电脑不给力,那可以尝试这种办法。

步骤:




  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值