企业级Hadoop大数据平台实战（2）——Hadoop单机版实现和伪分布式的实现

最新推荐文章于 2021-04-25 13:49:57 发布

置顶温柔梦9527

最新推荐文章于 2021-04-25 13:49:57 发布

阅读量295

点赞数 1

分类专栏： linux运维——企业实战文章标签：企业级Hadoop大数据平台实战（2）——Hadoop单机版实现和伪分

本文链接：https://blog.csdn.net/ymeng9527/article/details/99710602

版权

linux运维——企业实战专栏收录该内容

122 篇文章 8 订阅

订阅专栏

1.基础知识

Hadoop的架构
核心，Hadoop主要有两个层次，即：加工/计算层(MapReduce)和存储层(Hadoop分布式文件系统)
除了上面提到的两个核心组件，Hadoop的框架还包括以下两个模块：
Hadoop通用：这是Java库和其他Hadoop组件所需的实用工具
Hadoop YARN ：这是作业调度和集群资源管理的框架
Hadoop Streaming 是一个实用程序，它允许用户使用任何可执行文件（例如shell实用程序）作为映射器和/或reducer创建和运行作业

HDFS遵循主从架构，它具有以下元素：

（1）名称节点 -Namenode
名称节点是包含GNU/Linux操作系统和软件名称节点的普通硬件。它是一个可以在商品硬件上运行的软件。
具有名称节点系统作为主服务器，它执行以下任务：

管理文件系统命名空间。
规范客户端对文件的访问。
它也执行文件系统操作，如重命名，关闭和打开的文件和目录。

（2）数据节点 - Datanode
Datanode具有GNU/Linux操作系统和软件Datanode的普通硬件。对于集群中的每个节点(普通硬件/系统)，有一个数据节点。

这些节点管理数据存储在它们的系统。
数据节点上的文件系统执行的读写操作，根据客户的请求。
还根据名称节点的指令执行操作，如块的创建，删除和复制。

（3）块 -block
一般用户数据存储在HDFS文件。在一个文件系统中的文件将被划分为一个或多个段和/或存储在个人数据的节点。
这些文件段被称为块。换句话说，数据的HDFS可以读取或写入的最小量被称为一个块。
缺省的块大小为64MB，但它可以增加按需要在HDFS配置来改变。

在这里插入图片描述
上图中展现了整个HDFS三个重要角色：NameNode、DataNode和Client
NameNode可以看作是分布式文件系统中的管理者，主要负责管理文件系统的命名空间、集群配置信息和存储块的复制等
NameNode会将文件系统的Meta-data存储在内存中
这些信息主要包括了文件信息、每一个文件对应的文件块的信息和每一个文件块在DataNode的信息等
DataNode是文件存储的基本单元，它将Block存储在本地文件系统中，保存了Block的Meta-data
同时周期性地将所有存在的Block信息发送给NameNode。Client就是需要获取分布式文件系统文件的应用程序
在这里插入图片描述

2.搭建实验环境

主机信息	主机功能
server1（172.25.2.1）	hadoop
真机（172.25.2.250）	测试

（1）在真机上重新创建一个快照并且导入，保证实验环境干干净净
在这里插入图片描述
（2）用真机连接server1

（3）从真机上给server1发送jdk和hadoop的安装包
Hadoop是Java开发的，因此需要在服务器上安装相对应的JDK
ps:Linux默认自带JDK–openJDK–>Hadoop集群千万不要使用这个
将hadoop安装包上传到服务器
ps：实际开发中如需要其他安装包，请去官网下载
在这里插入图片描述
到此为止，基本的实验环境已经搭建完毕

3.单机版的实现过程如下

创建一个hadoop用户
将hadoop相关安装包都放在hadoop用户家目录下
在这里插入图片描述
将两个压缩包都进行解压，并且做软连接方便操作

编辑环境变量的文件

写入java命令绝对路径方便命令使用

使更改生效

显示当前所有java进程pid的命令

编辑文件，声明java
hadoop对应目录

bin	hadoop最近的管理脚本和使用脚本的目录
etc	Hadoop配置文件所在的目录，包core-site.xml hdfs-site.xml yarn-site.xml mapred-site.xml
include	对外提供的编程库文件(具体存在着静态和动态链接，这些文件都是C++定义，通常适用于MapReduce)
lib	包含hadoop对外提供的编程静态和动态库，与include目录中的文件一起使用
libexec	各种服务对应上的shell配置文件所在的目录
sbin	hadoop管理脚本的目录，包括HDFS和YARN的各种启动服务
share	hadoop各个模块编译后jar包所在目录

ps:hadoop1.x版本是没有 yarn hadoop2.x之后提供的yarn

在这里插入图片描述

独立操作debug，运行了一个程序

到此为止，基本的单机版搭建已经完毕，接下来实现伪分布式的搭建

4.伪分布式的实现过程如下

（1）做本机的免密，因为此时的伪分布式也是在一台节点上实现的
在这里插入图片描述

（2）此时的workers文件里面既可以写localhost，也可以写ip地址
为了后续实验方便，在这里我写ip地址

（3）设置slave节点为本机

设置副本个数为1，因为此时只有本机一个节点开启datanode进程

（4）设置master节点也为本机
在这里插入图片描述
（6）初始化一下

可以发现，初始化之后会在/tmp这个目录下面生成一些临时目录以及进程的pid文件

（7）开启服务

（8）此时datanode和namenode进程均开启在本节点上

（9）查看服务端口的开启情况

（10）在真机上做好解析之后进行测试
在浏览器里面可以看到图形化界面
在这里插入图片描述

（11）查看一些主机的信息，在线还是不在线

（12）建立数据目录，上传数据

（14）在浏览器里面可以看到刚刚上传上去的文件

在图形化界面里面没有直接删除文件的权限

温柔梦9527

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
企业级Hadoop大数据平台实战（2）——Hadoop单机版实现和伪分布式的实现

稍后添加详细说明1.搭建实验环境主机信息主机功能server1（172.25.2.1）hadoop真机（172.25.2.250）测试（1）在真机上重新创建一个快照并且导入，保证实验环境干干净净（2）用真机连接server1（3）从真机上给server1发送jdk和hadoop的安装包Hadoop是Java开发的，因此需要在服务器上安装相对应的JD...
复制链接

扫一扫