sparkRDD

最新推荐文章于 2021-08-11 21:37:10 发布

weixin_44617428

最新推荐文章于 2021-08-11 21:37:10 发布

阅读量71

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/weixin_44617428/article/details/102665754

版权

spark 专栏收录该内容

17 篇文章 0 订阅

订阅专栏

创建普通集合
scala> val a1=Array(1,2,3,4,5,6)
a1: Array[Int] = Array(1, 2, 3, 4, 5, 6)

创建RDD加两个分区
scala> val r1=sc.parallelize(a1,2)
r1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at :26

查看分区数
scala> r1.partitions.size
res6: Int = 2

查看分区数据
cala> r1.glom.collect
res7: Array[Array[Int]] = Array(Array(1, 2, 3), Array(4, 5, 6))

从本地文件里取数据
scala> val r3=sc.textFile(“file:///home/hadoop/1.txt”,2)
r3: org.apache.spark.rdd.RDD[String] = file:///home/hadoop/1.txt MapPartitionsRDD[2] at textFile at :24
scala> r3.collect
res1: Array[String] = Array(192.168.234.21, 192.168.234.22, 192.168.234.23, “”)

从hdfs里读取文件数据
scala> val r3=sc.textFile(“hdfs://mast1:9000/txt/ip.txt”,2)
r3: org.apache.spark.rdd.RDD[String] = hdfs://mast1:9000/txt/ip.txt MapPartitionsRDD[4] at textFile at :24
scala> r3.collect
res2: Array[String] = Array(10.9.80.16, 10.9.132.111, 10.9.152.65, 10.9.21.119, 10.9.132.111, 10.9.130.83, 10.9.80.16, 10.9.152.65, 10…

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_44617428

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sparkRDD

创建普通集合scala> val a1=Array(1,2,3,4,5,6)a1: Array[Int] = Array(1, 2, 3, 4, 5, 6)创建RDD加两个分区scala> val r1=sc.parallelize(a1,2)r1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at par...
复制链接

扫一扫