2019年05月_初心江湖路

12月 11月 10月 09月 08月 07月 06月 05月

原创 Spark论文研究之-一篇文章彻底弄清RDD

一、RDD说明RDD是啥？　　形式上，RDD是一种只读的分区记录集合。是一种具有容错能力的并行数据结构。使用户可以显式地将数据存在磁盘上或是内存中，控制其分区，并使用丰富的运算符来操作数据。RDD怎么产生？　　只能通过两种方式产生：确定的操作作用于稳定存储的数据上确定的操作作用于其他RDDsRDD产生动机？　　在上一篇文章中已经提到，Spark研究者发现现有的处理系...

2019-05-23 15:14:42 1971

原创 Spark论文详解之-Spark Introduction

1、专业处理系统的问题（本文所指专业系统均为Spark诞生之前）工作的重复性：正如分布式SQL引擎、机器学习引擎都需要执行并行聚合一样。单独的计算系统需要针对每个域重新解决如何并行聚合计算。这表现在工作分配和容错上便是重复的。这是很多专业计算系统的潜在问题。在执行组合计算上：多数情况下，大数据计算的数据量是很庞大的，而且在得到最终计算结果之前，通常是经过多个计算引擎管道式组合计算而来，这样就...

2019-05-14 15:48:00 627

原创 SparkContext详解

首先，每一个Spark应用都是一个SparkContext实例。

2019-05-11 16:41:20 25803

原创 Spark分区数计算

一、对于Hadoop数据源Spark支持所有hadoop I/O格式，因为它使用相同的Hadoop InputFoarmat API以及Spark自有的其它格式化程序。因此，在默认情况下，Spark的输入分区和Hadoop/MapReduce的输入分片方式一致。通常情况下，Spark为每一个hdfs块创建一个分区（注：如果行特别长，大于一个块大小，那么最终分区数会少于块数）。但是，若你要进一步...

2019-05-08 18:03:15 2861

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人