DataCleaner---15.1 Hadoop部署概述

15.1 Hadoop部署概述

Apache Hadoop是一个分布式系统,有许多关键组件,其中有几个很重要:

  • YARN,通常被称为Hadoop的“操作系统”。YARN是一个管理实体,它为运行特定的作业或任务分配资源。
  • HDFS,这是Hadoop分布式文件系统。这是数据所在的位置,也是共享可执行文件的位置,以便可以在集群中的许多节点上获取分布式进程。
  • Namenode是集群中的一个专用节点,负责处理HDFS和将数据分发给其他节点,即所谓的datanode。

此外,DataCleaner Hadoop是使用apachespark构建的,apachespark是一个与Hadoop以及其他集群技术一起工作的数据处理框架。Apache Spark的几个重要概念对于DataCleaner在Hadoop上的部署非常有用:

  • 集群管理器,它是与集群协商的组件,例如Hadoop/YARN。从apachespark的角度来看,YARN是一个集群管理器。
  • 驱动程序,它是指导集群管理器并告诉它做什么的程序。在apachespark for hadoop中,您有两种选择:作为外部进程运行驱动程序(“yarn-client”),或者作为yarn本身的进程运行驱动程序(“yarn-cluster”)。
  • Executor,是Spark集群中执行作业分区(块)的节点。

在下图的顶部,您可以看到Hadoop/YARN和apachespark,以及它们是如何组件化的。
hadoop_deployment_overview
在图像的下半部分,您可以看到HDFS上DataCleaner的目录结构。如您所见,使用了通常的配置和作业文件,但放在HDFS上。HDFS上放置了一个特殊的JAR文件,作为apachespark执行器的可执行文件。


点这儿返回DataCleaner文档主目录

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值