spark
新世界的海贼
这个作者很懒,什么都没留下…
展开
-
spark1.2.0+hadoop2.4.0集群环境搭建
spark1.2.0+hadoop2.4.0集群环境搭建1.首先介绍一下整个过程中需要用到的一些软件Jdk jdk-7u21-linux-i586.tar.gzspark-1.2.0-bin-hadoop2.4 这是编译好了的spark,当然你也可以自己编译,详情将官网http://spark.apache.org/docs/latest/building-spark.h原创 2014-12-31 10:37:32 · 1431 阅读 · 0 评论 -
SparkRDDAPIExamples
The RDD API By ExampleRDD is short for Resilient Distributed Dataset.RDDsare the workhorse of the Spark system. As a user, one can consider aRDD as a handle for a collection of individual data par转载 2014-12-19 11:35:06 · 1213 阅读 · 0 评论 -
Spark-streaming-2.0-Kafka数据接收并行度源码解析
Streaming从kafka接收数据有Receiver和direct两种方式。下面我们看一下这两种方式的源码。Direct approach这种方式是使用kafka的低阶API从kafka消费数据。一般如果需要自行维护partition的offset,实现自定义checkpoint文件,或者exactlyOnce场景下就会用到这一方式。首先需要看一下DirectKafkaInputD转载 2016-12-23 11:07:01 · 2875 阅读 · 0 评论