RDD的创建
RDD(Resilient Distributed Dataset)全称为弹性分布式数据集,是Spark对数据的核心抽象。创建RDD是使用RDD的第一步,一般可以由内存中的集合、文件、外部数据源生成或者由其他RDD转换而成。
1.并行集合
并行集合可以对Driver中的集合调用parallelize方法得到,Driver会将集合切成分区,并将数据分区分发到整个集群中。
val sc = new SparkContext(sparkConf)
val rdd = sc.parallelize(Seq(1,2,3))
2.从HDFS中读取
HDFS作为Spark 的底层存储,Spark集群中的节点就会去读取分散在 HDFS中的数据块。
val sc = new SparkContext(sparkConf)
val rdd = sc.textFile("/user/me/a.txt")
3.从HBase中读取
Spark从HBase读取文件有两种方式,一种是基于HBase的Scan操作,另一种是直接读取HBase的Region文件(切片,切片是有序二进制文件)。
val sc = new SparkContext(sparkConf)
val tableName = "your_hbaseTable"
val conf = HBaseConfiguration