- 博客(7)
- 问答 (3)
- 收藏
- 关注
原创 浅析 Spark 中 Key-Value 类型的 RDD
1.partitionBy1)函数签名def partitionBy(partitioner: Partitioner): RDD[(K, V)]2)函数说明将数据按照指定 Partitioner 重新进行分区。Spark 默认的分区器是 HashPartitioner注意:要将 rdd 转换为 Key-Value 元组类型,才能调用 partitionByimport org.apache.spark.{HashPartitioner, SparkConf, SparkContext}o
2021-12-13 16:23:11 499
原创 浅析 Spark RDD 的依赖关系
RDD 依赖关系和血缘关系说明:调用 toDebugString 方法可以查看 RDD 保存的血缘关系RDD 窄依赖新的 RDD 的一个分区的数据依赖于旧的 RDD 一个分区的数据,这个依赖称之为 OneToOne 依赖(窄依赖)窄依赖表示每一个父(上游)RDD 的 Partition 最多被子(下游)RDD 的一个 Partition 使用,窄依赖我们形象的比喻为独生子女RDD 宽依赖新的 RDD 的一个分区的数据依赖于旧的 RDD 多个分区的数据,这个依赖称之为 shuffle 依赖(
2021-12-12 21:38:04 1564 1
原创 HDFS 通信框架
1.HDFS 的各节点之间的通信框架概述HDFS 之间的通信方式有两种:(1)基于 RPC 的通信 (2)基于 TCP 或 HTTP 的通信1)RPC 通信的接口定义了客户端和 NameNode 的接口,客户端和 DataNode 的接口,DataNode 和 NameNode 的接口,DataNode 和 DataNode 的接口。底层采用 Hadoop 的 RPC 通信协议,实现客户端与服务端之间的通信2)基于 TCP 和 HTTP 通信的流式接口(1)HDFS 客户端和 DataNod
2021-11-24 16:18:53 2321
原创 YARN 资源调度器
1.基本架构资源调度器是 YARN 中最核心的组件之一,且是插拔式的,它定义了一整套接口规范以便用户可按照需要实现自己的调度器。YARN 自带了 FIFO,Capacity Scheduler,Fair Scheduler 三种常用资源调度器,用户也可以按照接口规范编写一个新的资源调度器。可通过参数 yarn.resourcemanager.scheduler.class 设置资源调度器的主类,默认是 Capacity Scheduler 容量调度器YARN的资源管理器实际上是一个事件处理器,它需
2021-11-24 16:14:39 1424
原创 YARN的基本架构
YARN基本组成结构Yarn主要由ResourceManager,NodeManager,ApplicationMaster 和 Container 几个组件构成1.ResourceManager(RM)RM,全局的资源管理器,负责整个系统的资源管理和分配①调度器调度器根据容量、队列等限制条件,将系统中的资源分配给各个正在运行的应用程序。②Applications Manager(ASM)负责管理整个系统中所有应用程序,包括程序提交、与调度器协商资源以启动 ApplicationMaste
2021-08-03 12:34:35 866
原创 YARN工作流程
当用户向 Yarn 提交一个应用程序后,Yarn 将分两个阶段运行该应用程序:①启动 ApplicationMaster②由 ApplicationMaster 创建应用程序,为它申请资源,并监控其整个运行过程,知道运行完成具体步骤如下:①用户向 Yarn 中提交应用程序,其中包括 ApplicationMaster 应用程序、启动 ApplicationMaster 的命令、用户程序等②ResourceManager 为该应用程序分配第一个 Container,并与对应的 NodeManager
2021-08-03 12:25:35 148
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人