spark 存储体系——磁盘

磁盘存储主要是DiskBlockManager和DiskStore两个类。比较简单。
DiskBlockManager:block和磁盘文件对应关系
DiskStore:将block实际写入磁盘文件

DiskBlockManager

主要类的成员:
localDirs: Array[File] 本地工作目录,参数是spark.local.dir
subDirs: Array[Array[File]] 子目录,spark.local.dir下面创建的子目录
getflie 获取block对应的文件,没有的话会创建
image.png

getFile

首先计算hash值,根据hash取余获取第一层目录,hash先整除再取余获取第二层目录。
如果对应的文件存在就直接返回,没有的话就创建一个新的file,放对应位置。
image.png

getAllFiles/getAllBlocks

getAllFiles是遍历subDirs的所有子目录下的文件。
getAllBlocks是调用getAllFiles。
image.png

createTempLocalBlock/createTempShuffleBlock

创建临时block也是调用getFile方法。
image.png

DiskStore

blockSizes:记录block和大小的map结构
put/putBytes:数据写入文件
getBytes:从文件中读取数据
remove:移除block
moveFileToBlock:将文件数据(一般是临时文件)转移到新的文件中
image.png

put/putBytes

putBytes是调用put方法。

  1. diskManager获取对应文件
  2. 将fileChannel包装成可以计数的CountingWritableChannel,写入的时候可以计数
  3. 调用writeFunc函数将数据写入
  4. 更新blockSizes的信息

image.png

getBytes

最终是将flie对象封装成DiskBlockData对象。DiskBlockData可以方便转换。
image.png

remove

image.png

moveFileToBlock

image.png

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
很高兴为您介绍Spark性能优化指南——高级篇。 1. 数据倾斜问题 数据倾斜是指在Spark任务中,某些分区的数据量远远大于其他分区,导致任务执行时间过长。解决数据倾斜问题的方法包括: - 使用随机前缀或哈希分桶等方式对数据进行分区,使数据分布更加均匀。 - 对于reduceByKey等聚合操作,使用combineByKey或aggregateByKey等方法,避免数据倾斜。 - 对于join操作,使用broadcast变量或者将小表缓存到内存中,避免数据倾斜。 2. 内存管理 Spark的内存管理对于任务的性能有着重要的影响。以下是一些内存管理的优化方法: - 调整executor内存分配比例,避免OOM错误。 - 合理设置内存管理参数,如spark.memory.fraction、spark.memory.storageFraction等。 - 使用持久化存储,如cache或persist方法,避免重复计算和数据丢失。 3. 磁盘IO 磁盘IO是Spark任务中的瓶颈之一。以下是一些优化磁盘IO的方法: - 使用本地磁盘而非网络磁盘,避免网络IO带来的延迟。 - 使用压缩算法,如Snappy或LZ4,减少磁盘IO的数据量。 - 对于shuffle操作,使用Tungsten排序等优化算法,减少磁盘IO的次数。 4. 并行度 并行度是指任务中可以同时执行的任务数。以下是一些优化并行度的方法: - 调整任务的并行度,使任务能够充分利用集群资源。 - 对于shuffle操作,调整reduce任务的数量,避免过多的reduce任务导致性能下降。 - 对于数据量较大的任务,使用分区并行执行,避免单个任务的执行时间过长。 5. 网络传输 网络传输是Spark任务中的另一个瓶颈。以下是一些优化网络传输的方法: - 调整网络传输的缓存大小,使数据传输更加高效。 - 使用序列化算法,如Kryo或Java序列化,减少网络传输的数据量。 - 对于shuffle操作,使用Tungsten排序等优化算法,减少网络传输的数据量。 希望以上内容能够帮助您更好地优化Spark任务的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值