spark
飞飞好奇
Fly For Fun
深入分布式、中间件、系统架构技术研究;
专注互联网金融、互联网文化娱乐行业。
展开
-
Spark特点
Spark特点1、先进架构Spark采用Scala语言编写,底层采用了actor mode的akka作为通讯框架,代码十分简洁高效。基于DAG图的执行引擎,减少多次计算之间中间结果写到hdfs的开销。建立在统一抽象的RDD(分布式内存抽象)之上,使得它可以以基本一致的方式应对不同的大数据处理场景。2、高效提供Cache机制来支持需要反复迭代的计算或者多次数据共享,减少数据读原创 2016-12-19 10:28:02 · 3506 阅读 · 0 评论 -
Spark编程模型概述
1、概述Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。Spark是一张有向无环图(从一个点出发最终无法回到该点的一个拓扑),并对其进行优化。Spark应用程序在集群上运行着独立、平行的操作集合,并且由主入口main函数,也可以称driver program(驱动程序)创建的SparkContext管理。SparkContext可以连接到几种类型的集群管原创 2016-12-16 18:24:46 · 723 阅读 · 0 评论 -
Spark的核心概念——RDD
Spark的核心概念——RDDRDD(resilient distributed dataset )Spark基本计算单元,是Spark数据集 最核心的东西。表示已被分区、被序列化、不可变的、有容错机制的、能被并行操作的数据集合弹性分布式Resilient 当一个RDD分区(partition)丢失之后,Spark会自动通过lineage,从其原始的RDD重新计算。Distribu原创 2016-12-19 16:53:44 · 567 阅读 · 0 评论 -
Spark核心操作--Transformation和Action
Transformations把一个RDD(数据集合)转换成另一个RDD(数据集合)•map•filter•flatMap•mapPartitions•mapPartitionsWithIndex•sample•union•intersection•distinct•groupByKey•reduceByKey•aggregateByKey•原创 2016-12-19 17:17:44 · 306 阅读 · 0 评论 -
Spark_MLlib_数据类型
一、概述MLlib支持在单独节点上存储本地向量(local vectors) 和矩阵(matrices),也可以依赖一个或更多的RDD来进行分布式的存储矩阵。本地向量和本地矩阵是作为公共接口的简单的数据模型。底层的线性代数操作由 Breeze 和 jblas 提供。在MLlib中,一个使用监督式学习的训练例子成为“标记点”(labeled point)。二、本地向量(Local vecto原创 2017-01-23 14:53:13 · 340 阅读 · 0 评论