一篇文章带你了解Hadoop

最新推荐文章于 2024-08-10 02:40:24 发布

Reset the brain

最新推荐文章于 2024-08-10 02:40:24 发布

阅读量1k

点赞数 28

文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/weixin_58785499/article/details/139066321

版权

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。它允许在集群中使用简单的编程模型对大型数据集进行处理，是一个提供分布式存储和计算的开源软件框架，具有无共享、高可用、弹性可扩展的特点，非常适合处理海量数据。Hadoop主要由分布式文件系统HDFS和分布式数据处理库MapReduce组成，用户可以在不了解分布式底层细节的情况下，开发分布式程序，充分利用集群的威力进行高速运算和存储。此外，Hadoop还具有高可靠性、高扩展性、高效性、高容错性和低成本等优点。

优势

高可扩展性：Hadoop可以轻松地扩展到大规模集群，并处理大量的数据。它采用分布式计算的方式，将工作负载分布在集群中的多个节点上，使得系统能够处理海量的数据和高并发请求。
高容错性：Hadoop具有高度的容错能力，即使在设备或任务发生故障的情况下，也能保持数据的完整性和系统的可用性。它通过数据的冗余复制和自动故障转移等机制，确保数据的安全和系统的稳定性。
高效性：通过并行处理和分布式计算，Hadoop能够实现快速的数据处理。它可以将大规模的数据分解为小的任务并在多个节点上并行执行，从而提高处理效率和速度。
处理多种数据类型：Hadoop可以处理各种类型的数据，包括结构化数据、半结构化数据和非结构化数据。它能够灵活地存储和处理数据，支持分布式存储和处理大规模的文本、图像、音频、视频等数据类型。
异构性：Hadoop支持不同类型的硬件和操作系统，并且能够与其他开源工具和框架无缝集成。它提供了统一的接口和API，使得用户可以用各种编程语言编写应用程序，并在Hadoop上运行。
成本效益：相比于传统的数据存储和处理方式，Hadoop具有较低的成本。它使用商业化的廉价硬件，可以通过纵向和横向扩展实现高性能和高可用性，降低了硬件和软件成本。

核心组件

HDFS（分布式文件存储）：HDFS是Hadoop的文件系统，它是一个高度容错性的系统，适合部署在廉价的机器上，专门设计用于存储海量数据的分布式文件系统。HDFS采用Master/Slave架构模式，其中NameNode负责元数据的管理，而DataNode负责数据的存储和检索。
YARN（资源调度）：YARN是Hadoop的资源管理系统，它负责整个集群计算时的资源管理分配。YARN的主要组成部分包括ResourceManager（负责集群节点资源管理）和NodeManager（与RM汇报资源，管理Container生命周期）。
MapReduce（分布式计算）：MapReduce是一个分布式计算框架，它允许用户在集群上执行大规模数据集的处理。MapReduce框架通常与分布式文件系统（如HDFS）结合使用，用于存储输入数据和输出结果。MapReduce的核心功能包括作业调度、任务执行以及结果的归约操作。

核心组件一：HDFS

HDFS可以将数千台服务器组成一个统一的文件存储系统，其中NameNode服务器充当文件控制块的角色，进行文件元数据管理，即记录文件名、访问权限、数据存储地址等信息，而真正的文件数据则存储在DataNode服务器上。

DataNode以块为单位存储数据，所有的块信息，比如块ID、块所在的服务器IP地址等，都记录在NameNode服务器上，而具体的块数据则存储在DataNode服务器上。理论上，NameNode可以将所有DataNode服务器上的所有数据块都分配给一个文件，也就是说，一个文件可以使用所有服务器的硬盘存储空间。

此外，HDFS为了保证不会因为硬盘或者服务器损坏而导致文件损坏，还会对数据块进行复制，每个数据块都会存储在多台服务器上，甚至多个机架上。

HDFS优势

高容错性。HDFS上传的数据自动保存多个副本，可以通过增加副本的数据来增加它的容错性。如果某一个副本丢失，HDFS 会复制其他机器上的副本，而我们不必关注它的实现。
适合大数据的处理。HDFS 能够处理 GB、TB 甚至 PB 级别的数据，规模达百万，数量非常大。
流式数据访问。HDFS 以流式数据访问模式来存储超大文件，一次写入，多次读取，即文件一旦写入，则不能修改，只能增加。这样可以保持数据的一致性。

核心组件二：MapReaduce

MapReduce是一种分布式计算编程模型，用于处理大规模数据集。它的架构设计包括以下几个组件：

JobTracker（作业调度器）：

JobTracker是MapReduce作业的主节点，负责整个作业的调度和执行。它接收来自客户端的作业请求，将作业划分为多个任务，并分配给各个TaskTracker进行执行。JobTracker还负责监控任务的进度和状态，处理任务的失败和重新分配，以确保作业的顺利运行。

TaskTracker（任务执行器）：

TaskTracker是在每个集群节点上运行的组件，负责执行作业中的任务。它接收来自JobTracker的任务分配指令，并在该节点上启动和管理任务的执行。TaskTracker将任务划分为Map任务和Reduce任务，并负责处理任务的输入输出数据，以及任务的进度和状态更新。

MapTask（映射任务）：

MapTask是MapReduce作业的计算阶段。每个MapTask从输入数据中抽取一部分数据，经过映射函数的处理后生成键值对（key-value pair）。MapTask独立进行执行，处理输入数据的分片，将处理后的中间结果写入本地磁盘。

ReduceTask（归约任务）：

ReduceTask是MapReduce作业的归约阶段。每个ReduceTask接收来自Mapper的输出结果，并按照键进行归约操作，将具有相同键的数据进行合并和计算生成最终结果。ReduceTask也独立执行，将归约后的结果写入最终输出文件。

分布式文件系统：

MapReduce框架通常与分布式文件系统（如HDFS）结合使用，用于存储输入数据和输出结果。分布式文件系统提供了高可靠性和容错性，并支持数据的高并发访问。

MapReduce可以在分布式集群的多台服务器上启动同一个计算程序，每个服务器上的程序进程都可以读取本服务器上要处理的数据块进行计算，因此，大量的数据就可以同时进行计算了。但是这样一来，每个数据块的数据都是独立的，如果这些数据块需要进行关联计算怎么办？

MapReduce将计算过程分成两个部分：

一部分是map过程，每个服务器上会启动多个map进程，map优先读取本地数据进行计算，计算后输出一个<key, value>集合；

另一部分是reduce过程，MapReduce在每个服务器上都会启动多个reduce进程，然后对所有map输出的<key, value>集合进行shuffle操作。所谓的shuffle就是将相同的key发送到同一个reduce进程中，在reduce中完成数据关联计算。

假设原始数据有两个数据块，MapReduce框架启动了两个map进程进行处理，它们分别读入数据。

map函数会对输入数据进行分词处理，然后针对每个单词输出<单词, 1>这样的<key, value>结果。然后MapReduce框架进行shuffle操作，相同的key发送给同一个reduce进程，reduce的输入就是<key, value列表>这样的结构，即相同key的value合并成了一个value列表。

那么这些进程是如何在分布式的服务器集群上启动的呢？数据是如何流动并最终完成计算的呢？下面来看这个过程？

上面主要有JobTracker和TaskTracker这两种进程角色，JobTracker在MapReduce集群中只有一个，而TaskTracker则和DataNode一起启动在集群的所有服务器上。

MapReduce应用程序JobClient启动后，会向JobTracker提交作业，JobTracker根据作业中输入的文件路径分析需要在哪些服务器上启动map进程，然后就向这些服务器上的TaskTracker发送任务命令。

TaskTracker收到任务后，启动一个TaskRunner进程下载任务对应的程序，然后反射加载程序中的map函数，读取任务中分配的数据块，并进行map计算。map计算结束后，TaskTracker会对map输出进行shuffle操作，然后TaskRunner加载reduce函数进行后续计算。

HDFS和MapReduce都是Hadoop的组成部分。

MapReduce优势

通过这种架构设计，MapReduce就可以实现任务的分布式执行和并行计算，并能够高效处理大规模数据集。

Map阶段将计算任务分布到不同的节点上进行并行处理，Reduce阶段将中间结果进行合并和计算生成最终结果。这种框架设计适用于各种数据处理场景，如数据排序、数据过滤、数据聚合等。同时，MapReduce框架也提供了一些其他功能，如容错性、动态负载均衡和数据本地化等，以提高作业的执行效率和数据处理速度。

核心组件三：Yarn

YARN（资源调度器）是Hadoop生态系统的一个关键组件，用于资源管理和作业调度。

资源管理： YARN负责集群中的资源分配和管理。它允许多个应用程序同时在同一Hadoop集群上运行，有效地共享集群资源。这些资源可以包括CPU核心、内存、磁盘空间等。

作业调度： YARN负责调度各种作业，如MapReduce作业、Spark应用程序等。它将可用资源分配给不同的应用程序，并监控它们的进度，以确保资源的合理利用。

Yarn就相当于一个分布式的操作系统平台，而MapReduce、Spark等运算程序则相当于运行在操作系统之上的应用程序。

需要注意的是，在Yarn中我们把job的概念换成了application，因为在新的Hadoop2.x中，运行的应用不只是MapReduce了，还有可能是其它应用如一个DAG（有向无环图Directed Acyclic Graph，例如storm应用）。

组成部分：

ResourceManager（资源管理器）：

ResourceManager是YARN集群的主节点，负责整个集群的资源管理和任务调度。它接收来自客户端、应用程序和NodeManager的资源请求，分配和调度集群中的资源。ResourceManager还负责监控集群的健康状态，处理故障和任务的重新分配，以确保高可用性和稳定性。

NodeManager（节点管理器）：

NodeManager是YARN集群中每个节点上的组件，负责管理和监控该节点上的计算资源。NodeManager通过向ResourceManager注册自己的资源和容器信息，将自身纳入到集群的资源管理中。它负责启动和监控容器，接收来自ResourceManager的资源分配指令，并向ResourceManager报告计算资源的使用情况。

ApplicationMaster（应用程序管理器）：

每个在YARN上运行的应用程序都会有一个ApplicationMaster。ApplicationMaster负责协调和管理应用程序的资源需求，与ResourceManager通信并向其申请资源。它还监控应用程序的运行状态和容器的健康度，并处理容器的启动、停止和失败等情况。ApplicationMaster执行应用程序的逻辑，将整个应用程序划分为一系列的任务，并与NodeManager通信来启动和管理任务的执行。

Container（容器）：

在YARN中，任务被封装到一个个容器中。容器是对计算资源的抽象，它由ResourceManager分配给ApplicationMaster，并由ApplicationMaster分配给具体的任务执行。每个容器拥有自己的计算和存储资源，并在NodeManager上创建和运行任务相关的进程。容器提供了高度的隔离性和资源限制，确保应用程序之间不会相互干扰。

资源调度图：

1、客户端程序向ResourceManager提交应用并请求一个ApplicationMaster实例，ResourceManager在应答中给出一个applicationID以及有助于客户端请求资源的资源容量信息。

2、ResourceManager找到可以运行一个Container的NodeManager，并在这个Container中启动ApplicationMaster实例

Application Submission Context发出响应，其中包含有：ApplicationID，用户名，队列以及其他启动ApplicationMaster的信息，Container Launch Context（CLC）也会发给ResourceManager，CLC提供了资源的需求，作业文件，安全令牌以及在节点启动ApplicationMaster所需要的其他信息。

当ResourceManager接收到客户端提交的上下文，就会给ApplicationMaster调度一个可用的container（通常称为container0）。然后ResourceManager就会联系NodeManager启动ApplicationMaster，并建立ApplicationMaster的RPC端口和用于跟踪的URL，用来监控应用程序的状态。

3、ApplicationMaster向ResourceManager进行注册，注册之后客户端就可以查询ResourceManager获得自己ApplicationMaster的详细信息，以后就可以和自己的ApplicationMaster直接交互了。在注册响应中，ResourceManager会发送关于集群最大和最小容量信息，

4、在平常的操作过程中，ApplicationMaster根据resource-request协议向ResourceManager发送resource-request请求，ResourceManager会根据调度策略尽可能最优的为ApplicationMaster分配container资源，作为资源请求的应答发个ApplicationMaster

5、当Container被成功分配之后，ApplicationMaster通过向NodeManager发送container-launch-specification信息来启动Container， container-launch-specification信息包含了能够让Container和ApplicationMaster交流所需要的资料，一旦container启动成功之后，ApplicationMaster就可以检查他们的状态，Resourcemanager不在参与程序的执行，只处理调度和监控其他资源，Resourcemanager可以命令NodeManager杀死container，

6、应用程序的代码在启动的Container中运行，并把运行的进度、状态等信息通过application-specific协议发送给ApplicationMaster，随着作业的执行，ApplicationMaster将心跳和进度信息发给ResourceManager，在这些心跳信息中，ApplicationMaster还可以请求和释放一些container。

7、在应用程序运行期间，提交应用的客户端主动和ApplicationMaster交流获得应用的运行状态、进度更新等信息，交流的协议也是application-specific协议

8、一但应用程序执行完成并且所有相关工作也已经完成，ApplicationMaster向ResourceManager取消注册然后关闭，用到所有的Container也归还给系统，当container被杀死或者回收，Resourcemanager都会通知NodeManager聚合日志并清理container专用的文件。