自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

转载 Spark 分区(Partition)的认识、理解和应用法

Spark 分区(Partition)的认识、理解和应用一、什么是分区以及为什么要分区?Spark RDD 是一种分布式的数据集,由于数据量很大,因此要它被切分并存储在各个结点的分区当中。从而当我们对RDD进行操作时,实际上是对每个分区中的数据并行操作。图一:数据如何被分区并存储到各个结点图二:RDD、Partition以及task的关系图三:分区数在shuffle操作会变化二、...

2018-12-25 21:40:26 6542 4

原创 IDEA 远程提交spark程序

编写目的编写此文档的目的是为了在idea上 能够远程提交spark程序到集群中运行,避免上传jar包到linux中,同时也避免了编写相应的spark脚本执行文件。实现功能在idea的上编写spark程序,不编写脚本,直接在idea上运行,且程序在spark集群(standalone)上运行。环境1、 Spark集群(standalone模式)完全分布式2、 你的项目工程可以访问hdfs...

2018-12-25 14:45:21 2468

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除