实施Hadoop集群

最新推荐文章于 2020-02-17 21:48:36 发布

Mr羽墨青衫

最新推荐文章于 2020-02-17 21:48:36 发布

阅读量1.5k

点赞数

分类专栏： Hadoop学习笔记文章标签： hadoop集群分布式文件系统分布式计算 hadoop

本文链接：https://blog.csdn.net/xzm_rainbow/article/details/15029047

版权

Hadoop学习笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一、引述

搜索引擎会遇到如何将大量的网页存储的问题。那么龙头老大Google就弄出了一个Google File System，一个分布式的存储系统，通过很多的小型PC机（很普通的计算机）分布式的将网页抓取、存储、调度，井井有条。

也会遇到很多的计算问题，比如搜索出一大堆的结果，那么应该向用户推荐哪些网页呢。就需要对网页的价值进行评估，在Google中是用PageRank计算出来的。PageRank的计算量是很大的，因为里面涉及到一个很大的矩阵，还涉及到特征向量的迭代求取，而矩阵的维度可能会达到10亿乘10亿。这么大的数据基本任何计算机都无法存储，而且里面的计算是现在任何计算机都算不出来的。Google就将这些工作分布到很多的节点计算机上，再汇总到一个中心机上，再分配计算，迭代计算，最终收敛到一个可以接受的值。

Hadoop的HDFS分布式文件系统，是Hadoop的两大支柱之一，另一个就是Map-Reduce，分布式计算系统。

Google还有一个很重要的思想：BigTable思想，比如将公司中的不管是部门信息还是员工信息还是什么信息的，原来都是分表存放，现在都放在一张表中存储。主要用于存储倒排索引，倒排索引可加快索引的速度。

Hadoop也山寨了一个BigTable，叫HBase。

二、参考书介绍

第一本：刘鹏编写。类似于学习笔记，比较简单，实例较多，比较友好，基本都能看懂。缺点就是有一些不严谨，比如hadoop的安装，按照他将的安装步骤会安不出来。有一些关键的环节是错的，缺一些东西。

第二本：陆家恒编写。写得比较好，但是内容比较呆板，初学者看起来比较费劲，讲了一些底层原理性的东西，如果计算机基础不错，且用Hadoop做过一些东西，看这本书不错。

这本书会拿出一些源代码进行剖析，深入的将HDFS的原理，可能会改动一些源代码来满足我们的需求（开源，可以自己改动），比较适合想往深处学的人，可以让你从一个操作者或维护者过渡到一个开发者。

三、准备与配置安装环境

最好安装三个节点，可以是真实物理机，也可以是虚拟机。虚拟机推荐VMware。4核，8G内存。

ESXI：是一张光盘，可以在裸机上安装。

ssh：是服务器群节点之间链接一定要用的。如果没有，则无法组建集群。

vi：编辑器，如果不装，则无法编辑。在hadoop中，我们要用vi去编辑很多配置文件，如果不安就完蛋了。

perl：有些脚本是用perl写的，如果不装perl，这些脚本就跑不了。

Linux和JDK环境准备好后，就可以安装Hadoop了。

四、三种运行模式

单机模式：基本不用，因为没有设么用途。

伪分布模式：安装与完全分布式模式只差一两个步骤，几乎没什么区别。如果电脑性能不太好的话，可以选择使用这种模式安装。

完全分布式：真正的Hadoop安装。就是前面所说的最少三个节点的安装模式。

五、伪分布式安装和配置步骤

1，下载Hadoop：根据地址可以找到对应的包

2，解压Hadoop

3，配置文件

（1）conf/hadoop-env.sh文件：

用vi打开这个文件，

这个文件的详细配置参见Hadoop权威指南的p269。

（2）修改core-site.xml文件：

fs.default.name:用于指定NameNode的IP地址和端口。通过这个配置就可以知道整个Hadoop集群他的名称节点在什么地方，以及他的监听端口在哪里，然后就可以知道怎样跟他进行联系了。

<name>fs.default.name</name>

<value>hdfs://localhost:9000</value>

这样配置说明NameNode工作在本机，在 9000端口监听。

（3）配置hdfs-site.xml文件：

这个文件指出数据节点(DataNode)的数据应该放在哪个目录里面。

hdfs-site.xml文件中常用的配置参数：

（4）修改mapred-site.xml文件：

4，配置ssh，生成密钥：

目的：使到ssh可以免密码链接localhost。

六、分布式安装和配置步骤

1，配置host文件

2，建立一个专门运行hadoop的用户。

以后我们会登陆这个用户，用他进行hadoop的启动、运行、管理的工作。

3，ssh配置

4，分发ssh公钥

ssh原理：

ssh通讯原理解析：

（1），客户机向服务器通过服务器的默认端口发送链接请求，

（2），服务器接收到请求后会把他的公钥发送给客户端，

（3），客户端接收到公钥后，再自己生成一个本次会话通讯密钥，并用服务器的公钥将这个通讯密钥加密，发送给服务器。由于是用服务器的公钥加密，只能由服务器自己的密钥解密，而密钥只有服务器自己知道，别人即使截获了，也无法解密，也就无法获取本次会话密钥。

（4），服务器接收到用公钥加密的会话密钥后，用自己的私钥解密，可以解除本次会话密钥。至此通讯双方都知道了这个通讯密钥。服务器再给客户端发送请求，请求链接的用户名和密码。

（5），客户端用本次会话密钥加密用户名和密码，发送给服务器。

（6），服务器接收到数据后，用本次会话密钥进行解密，解除提交的用户名和密码，进行核查，核查通过则给客户端发送接受请求的响应，否则给客户端发送拒绝请求的响应。

免密码的ssh原理：

如上面的分发ssh公钥所示。

5，修改core-site.xml、hdfs-site.xml、mapred-site.xml

在这里要注意把localhost改为响应的主机ip地址，因为现在是完全分布配置。

还要注意在hdfs-site.xml文件中要将复制文件的份数增加，因为在伪分布下只有一台主机，份数是1 ，现在是完全分布，不止一个主机，所以要增加。

mapred-site.xml中，要将localhost改成JobTracker所在的节点的ip地址。

core-site.xml中，也要将localhost改成当前节点所在的ip地址。

改好存盘即可。

6，修改master和slave文件

7，向各个节点复制hadoop

8，格式化NDFS

这一步是干什么呢？它在名称节点上面建立一系列的结构，用户存放整个HDFS的元数据。

9，启动守护进程

这一步启动hadoop集群。在名称节点下的hadoop的安装目录执行bin/start -all.sh，这个是启动脚本。启动后会有一些信息，告诉你每个节点正在启动哪些进程。如果没有警告或失败之类的信息，启动一般就OK了。

10，检测守护进程启动情况

七、在windows下安装Hadoop

在windows下也能安装hadoop，如果你的电脑不给力，那可以尝试这种办法。

步骤：

Mr羽墨青衫

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
实施Hadoop集群

一、引述搜索引擎会遇到如何将大量的网页存储的问题。那么龙头老大Google就弄出了一个Google File System，一个分布式的存储系统，通过很多的小型PC机（很普通的计算机）分布式的将网页抓取、存储、调度，井井有条。也会遇到很多的计算问题，比如搜索出一大堆的结果，那么应该向用户推荐哪些网页呢。就需要对网页的价值进行评估，在Google中是用PageRank计算出来的。PageRa
复制链接

扫一扫

专栏目录