DataCleaner---15.1 Hadoop部署概述

最新推荐文章于 2021-03-01 14:31:40 发布

lover_leo

最新推荐文章于 2021-03-01 14:31:40 发布

阅读量190

点赞数

分类专栏： DataCleaner 文章标签： java 运维大数据

本文链接：https://blog.csdn.net/weixin_43899418/article/details/114116753

版权

DataCleaner 专栏收录该内容

87 篇文章 3 订阅

订阅专栏

15.1 Hadoop部署概述

Apache Hadoop是一个分布式系统，有许多关键组件，其中有几个很重要：

YARN，通常被称为Hadoop的“操作系统”。YARN是一个管理实体，它为运行特定的作业或任务分配资源。
HDFS，这是Hadoop分布式文件系统。这是数据所在的位置，也是共享可执行文件的位置，以便可以在集群中的许多节点上获取分布式进程。
Namenode是集群中的一个专用节点，负责处理HDFS和将数据分发给其他节点，即所谓的datanode。

此外，DataCleaner Hadoop是使用apachespark构建的，apachespark是一个与Hadoop以及其他集群技术一起工作的数据处理框架。Apache Spark的几个重要概念对于DataCleaner在Hadoop上的部署非常有用：

集群管理器，它是与集群协商的组件，例如Hadoop/YARN。从apachespark的角度来看，YARN是一个集群管理器。
驱动程序，它是指导集群管理器并告诉它做什么的程序。在apachespark for hadoop中，您有两种选择：作为外部进程运行驱动程序（“yarn-client”），或者作为yarn本身的进程运行驱动程序（“yarn-cluster”）。
Executor，是Spark集群中执行作业分区（块）的节点。

在下图的顶部，您可以看到Hadoop/YARN和apachespark，以及它们是如何组件化的。
hadoop_deployment_overview
在图像的下半部分，您可以看到HDFS上DataCleaner的目录结构。如您所见，使用了通常的配置和作业文件，但放在HDFS上。HDFS上放置了一个特殊的JAR文件，作为apachespark执行器的可执行文件。

点这儿返回DataCleaner文档主目录

lover_leo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
DataCleaner---15.1 Hadoop部署概述

15.1 Hadoop部署概述Apache Hadoop是一个分布式系统，有许多关键组件，其中有几个很重要：YARN，通常被称为Hadoop的“操作系统”。YARN是一个管理实体，它为运行特定的作业或任务分配资源。HDFS，这是Hadoop分布式文件系统。这是数据所在的位置，也是共享可执行文件的位置，以便可以在集群中的许多节点上获取分布式进程。Namenode是集群中的一个专用节点，负责处理HDFS和将数据分发给其他节点，即所谓的datanode。此外，DataCleaner Hadoop是使
复制链接

扫一扫