spark
wzqllwy
这个作者很懒,什么都没留下…
展开
-
Spark基础学习一
1、RDD 基本概念:一个RDD就是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可以分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同的节点上,从而可以在集群中的不同节点上进行并行计算。RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,不能直接修改,只能基于稳定的物理存储中的数据集来创建RDD,或者通过在其他RDD上执行原创 2017-12-08 11:24:23 · 219 阅读 · 0 评论 -
spark-kafka direct方式读取和receiver方式读取的区别
区别:Spark-Streaming获取kafka数据的两种方式-Receiver与Direct的方式,可以从代码中简单理解成Receiver方式是通过zookeeper来连接kafka队列,Direct方式是直接连接到kafka的节点上获取数据了。一、基于Receiver的方式这种方式使用Receiver来获取数据。Receiver是使用Kafka的高层次Consumer API来实现的。rece原创 2017-12-22 09:46:25 · 5454 阅读 · 0 评论