自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Spark论文研究之-一篇文章彻底弄清RDD

一、RDD说明RDD是啥?  形式上,RDD是一种只读的分区记录集合。是一种具有容错能力的并行数据结构。使用户可以显式地将数据存在磁盘上或是内存中,控制其分区,并使用丰富的运算符来操作数据。RDD怎么产生?  只能通过两种方式产生:确定的操作作用于稳定存储的数据上确定的操作作用于其他RDDsRDD产生动机?  在上一篇文章中已经提到,Spark研究者发现现有的处理系...

2019-05-23 15:14:42 1971

原创 Spark论文详解之-Spark Introduction

1、专业处理系统的问题(本文所指专业系统均为Spark诞生之前)工作的重复性:正如分布式SQL引擎、机器学习引擎都需要执行并行聚合一样。单独的计算系统需要针对每个域重新解决如何并行聚合计算。这表现在工作分配和容错上便是重复的。这是很多专业计算系统的潜在问题。在执行组合计算上:多数情况下,大数据计算的数据量是很庞大的,而且在得到最终计算结果之前,通常是经过多个计算引擎管道式组合计算而来,这样就...

2019-05-14 15:48:00 627

原创 SparkContext详解

首先,每一个Spark应用都是一个SparkContext实例。

2019-05-11 16:41:20 25803

原创 Spark分区数计算

一、对于Hadoop数据源Spark支持所有hadoop I/O格式,因为它使用相同的Hadoop InputFoarmat API以及Spark自有的其它格式化程序。因此,在默认情况下,Spark的输入分区和Hadoop/MapReduce的输入分片方式一致。通常情况下,Spark为每一个hdfs块创建一个分区(注:如果行特别长,大于一个块大小,那么最终分区数会少于块数)。但是,若你要进一步...

2019-05-08 18:03:15 2861

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除