RDD的创建方式及注意事项

最新推荐文章于 2023-06-05 12:10:52 发布

爆发的~小宇宙

最新推荐文章于 2023-06-05 12:10:52 发布

阅读量677

点赞数

分类专栏： Spark spark学习专栏文章标签： RDD CREATE RDD NOTES

本文链接：https://blog.csdn.net/yu0_zhang0/article/details/80093986

版权

31 篇文章 2 订阅

订阅专栏

23 篇文章 9 订阅

订阅专栏

并行化集合通过调用SparkContext的并行化方法在驱动程序（Scala Seq）中的现有集合上创建的。复制集合的元素以形成可并行操作的分布式数据集。

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)

并行集合的一个重要参数：可以设置分区的数量。 Spark将为集群的每个分区运行一个任务。通常，对于集群中的每个CPU，都需要2-4个分区。Spark会根据您的群集自动设置分区的数量。但是，您也可以手动设置它作为第二个参数并行化（sc.parallelize(data, 10)）。

Spark可以从Hadoop支持的任何存储源创建分布式数据集，包括本地文件系统、HDFS、Cassandra、HBase、Amazon S3等。SCAP支持 text files, SequenceFiles,和任何其他Hadoop输入格式。

本地文件
val distFile = sc.textFile("file:///home/hadoop/data/input.txt") 
hdfs文件
val distFile = sc.textFile("hdfs://192.168.137.120/input.txt")

如果使用本地文件，必须在所有工作节点上存在该文件，访问时能够访问到。
Spark文件的输入方法，包括文本文件，目录、压缩文件和通配符。例如textFile(“/my/directory”)；
textFile(“/my/directory/*.txt”)；
textFile(“/my/directory/*.gz”）。
textFile 方法还采用一个可选的第二个参数来控制文件分区的数量。默认情况下，Spark为文件的每个块创建一个分区（在HDFS中默认为128MB），但也可以通过传递较大的值来请求更高数量的分区。请注意，分区不能比块少。

关注

专栏目录