![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
手提青灯觅佳人
这个作者很懒,什么都没留下…
展开
-
Spark的一个经典问题(1个Core5个Executor和5个Core1个Executor有什么区别)
Spark的一个经典问题(1个Core5个Executor和5个Core1个Executor有什么区别)一、问题分析1.1先思考两个问题1个Core VS 5个Core 有什么区别?在spark中如何用到Core1个Executor VS 5个Executor 有什么区别?在spark中如何使用Executor?1.2再思考两个问题什么是IO密集?什么是计算密集?二、上述两种方式 如何选择案例1数据量10亿条,什么逻辑运算都不做处理,只是写到hdfs中,该选择哪种方式?逻辑运算很少,原创 2021-12-27 11:46:47 · 2034 阅读 · 2 评论 -
Spark shuffle的两个调优参数
# 文件输出流内存缓冲区大小 默认32k 增加可以可以减少创建shuffle文件时候进行磁盘搜索和系统调用次数,建议64kspark.shuffle.file.buffer shuffle# 拉取的数据量大小 默认48m 增加可以减少reduce拉取数据的次数 建议96mspark.reducer.maxSizeInFilght reducetask ...原创 2021-12-27 10:32:11 · 646 阅读 · 0 评论 -
spark查看df中分区号与对应分区的数据量
frame.rdd .mapPartitionsWithIndex{case (i,rows) => Iterator((i,rows.size))} .toDF("partition_number","number_of_records") .show()查询结果如下原创 2021-11-01 15:24:29 · 1485 阅读 · 0 评论