- 博客(2)
- 收藏
- 关注
转载 Spark 分区(Partition)的认识、理解和应用法
Spark 分区(Partition)的认识、理解和应用一、什么是分区以及为什么要分区?Spark RDD 是一种分布式的数据集,由于数据量很大,因此要它被切分并存储在各个结点的分区当中。从而当我们对RDD进行操作时,实际上是对每个分区中的数据并行操作。图一:数据如何被分区并存储到各个结点图二:RDD、Partition以及task的关系图三:分区数在shuffle操作会变化二、...
2018-12-25 21:40:26 6736 4
原创 IDEA 远程提交spark程序
编写目的编写此文档的目的是为了在idea上 能够远程提交spark程序到集群中运行,避免上传jar包到linux中,同时也避免了编写相应的spark脚本执行文件。实现功能在idea的上编写spark程序,不编写脚本,直接在idea上运行,且程序在spark集群(standalone)上运行。环境1、 Spark集群(standalone模式)完全分布式2、 你的项目工程可以访问hdfs...
2018-12-25 14:45:21 2482
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人