
Spark
Spark
zero__007
这个作者很懒,什么都没留下…
展开
-
Spark初识
Spark简介 Spark是基于内存计算的大数据分布式计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。 在Spark中,通过RDD(Resilient Distributed Dataset,弹性分布式数据集)来进行计算,这些分布式集合,并行的分布在整个集群中。RDDs是Spark分发数据和计算的基础抽象类。原创 2016-08-07 15:45:03 · 617 阅读 · 0 评论 -
SparkStreaming的WordCount示例及源码分析(二)
ReceiverTracker自身运行在driver端,是一个管理分布在各个executor上的Receiver的总指挥者。 ReceiverTracker的作用是处理数据接收,数据缓存,Block生成等工作。JobScheduler拥有ReceiverTracker实例,在JobScheduler的start()方法中会启动ReceiverTracker,ReceiverTracker.st原创 2016-12-01 19:31:12 · 522 阅读 · 0 评论 -
SparkStreaming的WordCount示例及源码分析(三)
在JobScheduler的start中,当receiverTracker启动完毕之后,将启动JobGenerator。JobGenerator负责对DstreamGraph的初始化,DStream与RDD的转换,生成Job,提交执行等工作./** Start generation of jobs */ def start(): Unit = synchronized { if (eventLo原创 2016-12-01 19:45:36 · 440 阅读 · 0 评论 -
Spark运行模式
转载自:http://blog.csdn.net/colorant/article/details/18549027 Spark的运行模式取决于传递给SparkContext的MASTER环境变量的值,有以下几种(参考http://spark.apache.org/docs/latest/submitting-applications.html): 简单介绍一下: Loca转载 2016-11-12 20:00:01 · 642 阅读 · 0 评论 -
Spark Streaming
转载自:http://blog.csdn.net/snail_gesture/article/details/49968617 http://blog.selfup.cn/619.html 概述 Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错转载 2016-11-28 19:57:48 · 374 阅读 · 0 评论 -
Spark运行流程源码走读
SparkContext是整个spark程序的入口,在写WordCount程序时会new SparkContext(sparkConf)构建一个SparkContext实例。在SparkContext.scala中会执行一些必要的任务,最重要的如下(在396行的try块中的521行): // Create and start the scheduler val (sched, ts) = Sp原创 2016-11-10 20:52:01 · 1349 阅读 · 0 评论 -
Spark1.6的RPC
Spark RPC的核心是RpcEnv、RpcEndpoint、RpcEndpointRef,底层可以选择是基于Akka或Netty,可以扩展。 /** * An RPC environment. [[RpcEndpoint]]s need to register itself with a name to [[RpcEnv]] to * receives messages. Then [[原创 2016-11-10 19:27:45 · 421 阅读 · 0 评论 -
Word Count示例
scala版: import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: Array[String]) { /** * 创建spark的配置对象SparkConf,设置Spark程序运行时的配置信息。 */转载 2016-08-14 21:50:19 · 746 阅读 · 0 评论 -
SparkのRDD
转载自:http://blog.sina.com.cn/s/blog_4a7854d90102wrvb.html http://blog.csdn.net/slq1023/article/details/50927954 http://ifeve.com/%e3%80%8aspark-%e5%ae%98%e6%96%b9%e6%96%87转载 2016-08-13 16:57:50 · 546 阅读 · 0 评论 -
Spark内核架构
转载自:http://blog.sina.com.cn/s/blog_4a7854d90102wrv6.html http://blog.csdn.net/slq1023/article/details/50816669 Driver Driver是运行程序时具有main方法并创建了SparkContext的环境对象。SparkContext转载 2016-08-07 18:08:17 · 717 阅读 · 5 评论 -
SparkStreaming的WordCount示例及源码分析(一)
一.代码示例 object WordCount { def main(args: Array[String]) { val conf = new SparkConf().setAppName("WordCount").setMaster("local[2]") //设置batchDuration时间间隔来控制Job生成的频率并且创建Spa原创 2016-11-13 18:15:57 · 961 阅读 · 0 评论