HDFS架构原理与启动关闭操作

最新推荐文章于 2024-04-14 13:06:43 发布

The Devil of hell

最新推荐文章于 2024-04-14 13:06:43 发布

阅读量814

点赞数

分类专栏：大数据文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_51551506/article/details/127644969

版权

大数据专栏收录该内容

15 篇文章 0 订阅

订阅专栏

实验环境
Linux Ubuntu 16.04 前提条件：
1）Java 运行环境部署完成
2）Hadoop 的单点部署完成上述前提条件，我们已经为你准备就绪了。

实验内容
在上述前提条件下，学习HDFS的架构原理与HDFS的启动与关闭操作

实验步骤

1.简介

Hadoop Distributed File System，Hadoop分布式文件系统

2.架构图

3.Block数据块

（1）基本存储单位，一般大小为64M（配置大的块主要是因为：1.减少搜寻时间，一般硬盘传输速率比寻道时间要快，大的块可以减少寻道时间；2.减少管理块的数据开销，每个块都需要在NameNode上有对应的记录；3.对数据块进行读写，减少建立网络的连接成本）
（2）一个大文件会被拆分成一个个的块，然后存储于不同的机器。如果一个文件少于Block大小，那么实际占用的空间为其文件的大小
（3）基本的读写单位，类似于磁盘的页，每次都是读写一个块
（4）每个块都会被复制到多台机器，默认复制3份

4.NameNode

(1)存储文件的metadata，运行时所有数据都保存到内存，整个HDFS可存储的文件数受限于NameNode的内存大小
(2)一个Block在NameNode中对应一条记录（一般一个block占用150字节），如果是大量的小文件，会消耗大量内存。同时map task的数量是由splits来决定的，所以用MapReduce处理大量的小文件时，就会产生过多的map task，线程管理开销将会增加作业时间。处理大量小文件的速度远远小于处理同等大小的大文件的速度。因此Hadoop建议存储大文件
(3)数据会定时保存到本地磁盘，但不保存block的位置信息，而是由DataNode注册时上报和运行时维护（NameNode中与DataNode相关的信息并不保存到NameNode的文件系统中，而是NameNode每次重启后，动态重建）
(4)NameNode失效则整个HDFS都失效了，所以要保证NameNode的可用性

5.Secondary NameNode

定时与NameNode进行同步（定期合并文件系统镜像和编辑日志，然后把合并后的传给NameNode，替换其镜像，并清空编辑日志，类似于CheckPoint机制），但NameNode失效后仍需要手工将其设置成主机

6.DataNode

(1)保存具体的block数据
(2)负责数据的读写操作和复制操作
(3)DataNode启动时会向NameNode报告当前存储的数据块信息，后续也会定时报告修改信息
(4)DataNode之间会进行通信，复制数据块，保证数据的冗余性

7.点击桌面的"命令行终端"，打开新的命令行窗口

8.启动HDFS

启动HDFS，在命令行窗口输入下面的命令：

/apps/hadoop/sbin/start-dfs.sh

运行后显示如下，根据日志显示，分别启动了NameNode、DataNode、Secondary NameNode：

dolphin@tools:~$ /apps/hadoop/sbin/start-dfs.sh 
Starting namenodes on [localhost]
localhost: Warning: Permanently added 'localhost' (ECDSA) to the list of known hosts.
Starting datanodes
Starting secondary namenodes [tools.hadoop.fs.init]
tools.hadoop.fs.init: Warning: Permanently added 'tools.hadoop.fs.init,172.22.0.2' (ECDSA) to the list of known hosts.

9.查看HDFS相关进程

在命令行窗口输入下面的命令：

jps

运行后显示如下，表明NameNode、DataNode、Secondary NameNode已经成功启动

dolphin@tools:~$ jps
484 DataNode
663 SecondaryNameNode
375 NameNode
861 Jps

10.打开浏览器

点击左下角的浏览器图标，打开火狐浏览器

11.访问HDFS webUI

在浏览器输入 localhost:9870 ，回车后进入HDFS webUI界面，如下图所示：

在这里可以看多HDFS很多信息，例如NameNode状态信息，DataNode数量与状态，容量大小等，还可以直接进行操作。

12.HDFS的关闭

回到命令行窗口，运行下面的命令：

/apps/hadoop/sbin/stop-dfs.sh

运行后显示如下：

dolphin@tools:~$ /apps/hadoop/sbin/stop-dfs.sh 
Stopping namenodes on [localhost]
localhost: WARNING: namenode did not stop gracefully after 5 seconds: Trying to kill with kill -9
localhost: ERROR: Unable to kill 375
Stopping datanodes
localhost: WARNING: datanode did not stop gracefully after 5 seconds: Trying to kill with kill -9
localhost: ERROR: Unable to kill 484
Stopping secondary namenodes [tools.hadoop.fs.init]
tools.hadoop.fs.init: WARNING: secondarynamenode did not stop gracefully after 5 seconds: Trying to kill with kill -9
tools.hadoop.fs.init: ERROR: Unable to kill 663

此时，HDFS的所有进程都已经关闭。至此本实验结束啦，开始下一个实验吧。