2017年12月_玉成226

12月

原创三：RDD介绍

（本人初次接触spark可能有些地方理解的不够到位，希望各位读者多多指正，对于不恰当的地方也会进行改进）1、RDD定义：是弹性分布式数据集，是分布到各个节点的数据集合，具有自动容错性、位置感知调度和可伸缩性等。2、RDD的特性：2.1 分区（partition）分区是RDD的基本组成单位（spark并行处理的基本单元），属于RDD的子集。每个分区的计算都是独立执行的，并且分布到

2017-12-23 22:12:28 586

原创二：Spark是什么？

（本人初次接触spark可能有些地方理解的不够到位，希望各位读者多多指正，对于不恰当的地方也会进行改进）一、spark:快速通用的大规模数据处理引擎。（想对spark的定义和特点有较具体的认识可参考其官方网站：http://spark.apache.org/）官方文档：二、spark的特点：1、速度快在上篇文章中已经提到过spark的计算速度快是基于两原因：一是：spar

2017-12-23 20:28:48 4540 1

原创一：hadoop和spark的区别

hadoop是基于磁盘的，它的运算结果保存在磁盘当中；而spark的运算是基于内存的。因此spark的运算速度是hadoop的100倍；即使在磁盘当中运算，spark也是hadoop的10倍左右，原因就是spark具有优秀的作业调度策略。故spark的速度快与hadoop的两个原因：（1）spark是基于内存，hadoop基于磁盘：在hadoop中HDFS用于数据的存储

2017-12-14 19:06:29 933 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 三：RDD介绍

原创 二：Spark是什么？

原创 一：hadoop和spark的区别

空空如也

空空如也

原创三：RDD介绍

原创二：Spark是什么？

原创一：hadoop和spark的区别