Hadoop基础(一) 基本概念

最新推荐文章于 2022-07-18 20:23:14 发布

zeroxes

最新推荐文章于 2022-07-18 20:23:14 发布

阅读量961

点赞数 2

分类专栏： hadoop

本文链接：https://blog.csdn.net/xiliunian/article/details/105238322

版权

hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

概念

Hadoop 是 Apache 旗下一个开发和运行处理大数据的软件平台，允许使用简单的编程模型在大量计算机集群上对大型数据集进行分布式处理。多运用于互联网和金融领域。

三个核心组件

HDFS（分布式文件系统）：解决海量数据存储
YARN（作业调度和集群资源管理框架）:解决资源和任务调度
MapReduce（分布式运算编程框架）：解决海量数据计算

YARN：在 Hadoop2.x 中出现，Hadoop1.x 中 YARN 的功能由 MapReduce 实现。YARN 的出现使得 MapReduce 可以更加专注于计算本身，使 Hadoop 除了 MapReduce 之外还可以支持其他的编程框架。

四大特性优点

扩容能力：Hadoop 在计算机集群间分发数据并完成计算任务，集群可以方便的扩展节点。
成本低：Hadoop 用廉价的机器组成服务器集群来分发和处理数据，不依赖高端设备，降低成本。
高效率：Hadoop 可以在集群中并行处理数据，处理速度非常快。（1 小时计算，50 分钟读取）
可靠性：数据有多个备份，任务失败后能够自动重新部署。

HDFS

HDFS 全称是 Hadoop Distributed File System，即 Hadoop 分布式文件系统。

传统存储模式的缺陷：

单台服务器的存储、性能瓶颈
大文件上传下载的耗时巨大

针对上述问题 HDFS 给出的解决方案：

用横向扩展（集群）代替服务器的纵向扩展
将大文件切割为小块，达到并行操作

随之而来的问题：

大文件切块存储后，获取文件的成本变高
需要有一个文件记录切割后的文件块位置，存在单点故障
将块文件备份存储，会出现备份数据冗余

设计目标

硬件故障是常态，故障检测和快速自动恢复是 HDFS 的核心架构目标。
以流式读取数据，适合批量处理，牺牲用户交互。相较于数据访问的反应时间，更注重数据访问的高吞吐量。
设计成支持大文件（GB、TB 级别）。
write-one-read-many 访问模型。一旦创建、写入之后就不能再修改。
传统场景下，代码不动，数据动；大数据场景下，数据不动，代码动。将计算移动到数据附近，而非将数据移动到应用所在。

重要特性

master/slave 架构：一般一个 HDFS 集群由一个 NameNode 和多个 DataNode 组成。NameNode 是 HDFS 集群主节点，DataNode 是 HDFS 集群从节点。
分块存储：HDFS 中的文件在物理上是分块存储的，块（block）的大小可以配置，默认大小是 128 MB。
命名空间（Namespace）：命名空间由 NameNode 维护，支持传统的层次型文件组织结构（目录树）。HDFS 给客户端提供一个统一的抽象目录树，客户端通过路径来访问文件，不需要关心底层如何分块存储。
元数据：目录树 + 块位置信息（块 ID 以及块所在的 DataNode 服务器）称之为元数据，元数据由 NameNode 负责管理。
数据存储：文件块的具体存储管理由各个 DataNode 节点承担，DataNode 需要定时向 NameNode 汇报持有的块信息。
副本机制：由于 Hadoop 集群采用相对廉价的服务器搭建，硬件故障是常态。因此所有的文件块都有副本，默认使用三副本，即同一文件块一共只有 3 份。
一次写入、多次读出：不支持文件修改，适合做大数据分析的底层存储服务。

NameNode 概述

NameNode 是 HDFS 的核心，也是 master/slave 架构中的 master。
NameNode 仅存储HDFS 的元数据，并跟踪整个集群中的文件。文件数据本身实际存储在 DataNodes 中。（类似于 Git 中的 TreeObject 和 BlobObject）
NameNode 知道 HDFS 中任意给定文件的块列表及其位置，使用此信息 NameNode 知道如何用块构建文件。
NameNode 不会持久化存储每个文件的各个块所在的 DataNode 位置信息，这些信息在系统启动时从数据节点重建。
NameNode 是 Hadoop 集群中的单点故障。如果 NameNode 宕机，那么整个集群就瘫痪了。
NameNode 所在的机器通常会配置有大量的内存。整个 HDFS 可存储的文件数受限于 NameNode 的内存大小。

NameNode 结构图：

DataNode 概述

DataNode 负责将实际数据存储在 HDFS 中，也是 master/slave 架构中的 slave。
DataNode 需要和 NameNode 保持不断通信。
DataNode 启动时，需要将自己发布到 NameNode 并汇报自己持有的块列表。
当某个 DataNode 关闭时，不会影响数据或集群的可用性。NameNode 会安排其他 DataNode 管理的块进行副本复制。
DataNode 所在的机器通常会配置有大量的硬盘空间。因为实际的数据存储在 DataNode 中。
DataNode 会定期向 NameNode 发送心跳（证明自己活着），默认是 3s。如果 NameNode 长时间没有接收到 DataNode 发送的心跳，就会认为该 DataNode 失效。
DataNode 持有的块列表也要定时向 NameNode 汇报，默认是 6h。

工作机制

NameNode 负责管理整个文件系统元数据，客户端请求访问 HDFS 都是通过向 NameNode 申请来进行。；DataNode 负责管理具体文件数据块存储；Secondary NameNode 协助 NameNode 进行元数据的备份。

HDFS 结构图：

写数据流程

1、Client 发起文件上传请求，通过 RPC 与 NameNode 建立通讯，NameNode 检查目标文件是否己存在，父目录是否存在，返回是否可以上传。

2、Client 按 128MB 大小（默认大小，可配置）将文件切块，请求第一个 block 该传输到哪些 DataNode 服务器上。

3、NameNode 根据配置文件中指定的备份数量及机架感知原理进行文件分配，返回可用的 DataNode 地址，如 A，B，C。（注： Hadoop 在设计时考虑到数据的安全与高效，数据文件默认在 HDFS 上存放三份，存储策略为本地一份，同机架内其他某一节点上一份，不同机架内的某一节点上一份。）

4、Client 请求向 3 个 DataNode 中的 A 上传数据（本质上是一个 RPC 调用，建立 pipeline)，A 收到请求会继续调用 B，然后 B 调用 C，将整个 pipeline 建立完成，后逐级返回 Client。

5、Client 开始向 A 上传第一个 block（先从磁盘读取数据放到本地内存中），以 packet 为单位（默认 64 KB 大小)，A 收到一个 packet 就会传给 B，B 传给 C；A 每传入一个 packet 会放入一个应答队列等待应答。

6、数据被分割成一个个 packet 数据包在 pipeline 上依次传输，在 pipeline 反方向上逐个发送 ack（命令正确应答），最终由 pipeline 中第一个 DataNode 节点 A 将 pipeline ack 发送给 Client 。

7、当一个 block 传输完成后，Client 再次请求 NameNode 上传第二个 block 。

流程图如下：