Spark
不务正业的土豆
知行合一 止于行善
展开
-
3.Spark-RDD原理
1.RDD简介 在集群背后,有一个非常重要的分布式数据架构,即弹性分布式数据集(Resilient Distributed Dataset,RDD)。RDD是Spark的最基本抽象,是对分布式内存的抽象使用,实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD是Spark最核心的东西,它表示已被分区,不可变的并能够被并行操作的数据集合,不同的数据集格式对应不同的RDD实现。R原创 2017-08-20 14:15:25 · 622 阅读 · 0 评论 -
3.2 RDD依赖与有向无环图DAG
一、 DAG定义 有向无环图(DAG):Directed Acycle graph,反应RDD之间的依赖关系; DAG每个节点代表啥?代表的一个RDD transformation: 1) 一个RDD生成两个RDD: RDD2 = RDD1.filter(xxxxx) RDD3 = RDD1.filter(yyyy) 是从RDD1到RDD2,RDD3这样的过程 2) Union是两原创 2017-08-20 14:38:42 · 4725 阅读 · 0 评论 -
2.1-Spark运行架构
1、 Spark运行架构 1.1 术语定义 lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的Executor代码; lDriver:Spark中的Driver即运行上述Application的main()函数并且创建SparkCont原创 2017-08-20 17:32:30 · 349 阅读 · 0 评论 -
2.0-Spark完全分布式集群安装
本次安装是之前的Hadoop完全分布式集群的基础之上进行,相关软件版本如下: Linux系统:CentOS release 6.5 final x86-64 Jdk:jdk1.8.0_141 hadoop: Yarn的hadoop2.6 scala:scala-2.10.6 spark:spark-1.6.0-bin-hadoop2.6 此处省略jdk和hadoop的安装。 具体过程可原创 2017-08-20 13:59:10 · 1242 阅读 · 0 评论 -
3.1 Spark-RDD算子分类
从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。 2)Action 行动算子:这类算子会触发原创 2017-08-20 14:28:18 · 906 阅读 · 0 评论