Spark学习
文章平均质量分 81
youzoujiyi
这个作者很懒,什么都没留下…
展开
-
spark 之 SparkContext
SparkContext是Spark的入口, 它负责连接集群,创建RDD,广播变量和累积变量等。SparkContext可以说是spark的对外接口负责像使用者提供spark的各种功能, 它的作用是一个容器。(待理解)转载 2013-12-16 00:00:43 · 568 阅读 · 0 评论 -
spark源码图
转载 2013-12-16 00:01:38 · 561 阅读 · 0 评论 -
spark配置
原文地址:http://www.cnblogs.com/vincent-hv/p/3316502.htmlSpark主要提供三种位置配置系统:环境变量:用来启动Spark workers,可以设置在你的驱动程序或者conf/spark-env.sh 脚本中;java系统性能:可以控制内部的配置参数,两种设置方法:编程的方式(程序中在创建SparkContext之前,使用转载 2013-12-17 23:43:11 · 703 阅读 · 0 评论 -
spark介绍
Spark是一个小巧玲珑的项目,由Berkeley大学的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,充分体现了精简之美。系列文章见: Spark随谈 http://www.linuxidc.com/Linux/2013-08/88592.htmSpark之依赖(1)Map Reduce模型作为一个分布式计算框架,S转载 2013-12-16 00:05:10 · 731 阅读 · 0 评论 -
Spark 体系结构
原文地址:http://jerryshao.me/architecture/2013/03/29/spark-overview/ 整体上Spark分为以下几个主要的子模块:deploy: deply模块包括Master,Work和Client,参见architecture图的最上 部分。deploy主要负责启动和调度用户实现的Spark application并且分转载 2013-12-18 00:00:57 · 1015 阅读 · 0 评论 -
Spark各部分功能
转载地址 :http://blog.csdn.net/wyc09/article/details/16342809Spark源码分析Driver,Master,Worker,Executor每个App通过Driver使用Cluster:首先向Master注册App,然后每个Worker为其创建一个Executor。RDD,Partition,Task转载 2013-12-17 00:15:27 · 844 阅读 · 0 评论 -
杂记 待整理
1. 每个spark程序均有一个驱动程序,它运行main函数,在集群上执行并行操作2. spark有两种抽象 第一种是RDD 第二种是 shared variables ---- 共享变量 1. 广播变量 Broadcast variables。 它在所有节点都缓存只读的变量,就是master节点会往每一个slave节点都发送一份数据原创 2013-12-15 23:50:41 · 444 阅读 · 0 评论