15.1 Hadoop部署概述
Apache Hadoop是一个分布式系统,有许多关键组件,其中有几个很重要:
- YARN,通常被称为Hadoop的“操作系统”。YARN是一个管理实体,它为运行特定的作业或任务分配资源。
- HDFS,这是Hadoop分布式文件系统。这是数据所在的位置,也是共享可执行文件的位置,以便可以在集群中的许多节点上获取分布式进程。
- Namenode是集群中的一个专用节点,负责处理HDFS和将数据分发给其他节点,即所谓的datanode。
此外,DataCleaner Hadoop是使用apachespark构建的,apachespark是一个与Hadoop以及其他集群技术一起工作的数据处理框架。Apache Spark的几个重要概念对于DataCleaner在Hadoop上的部署非常有用:
- 集群管理器,它是与集群协商的组件,例如Hadoop/YARN。从apachespark的角度来看,YARN是一个集群管理器。
- 驱动程序,它是指导集群管理器并告诉它做什么的程序。在apachespark for hadoop中,您有两种选择:作为外部进程运行驱动程序(“yarn-client”),或者作为yarn本身的进程运行驱动程序(“yarn-cluster”)。
- Executor,是Spark集群中执行作业分区(块)的节点。
在下图的顶部,您可以看到Hadoop/YARN和apachespark,以及它们是如何组件化的。
在图像的下半部分,您可以看到HDFS上DataCleaner的目录结构。如您所见,使用了通常的配置和作业文件,但放在HDFS上。HDFS上放置了一个特殊的JAR文件,作为apachespark执行器的可执行文件。