1 RDD的创建方式
1.1 SparkContext’s parallelize(并行化集合)
并行化集合通过调用SparkContext的并行化方法在驱动程序(Scala Seq)中的现有集合上创建的。复制集合的元素以形成可并行操作的分布式数据集。
val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)
并行集合的一个重要参数:可以设置分区的数量。 Spark将为集群的每个分区运行一个任务。通常,对于集群中的每个CPU,都需要2-4个分区。Spark会根据您的群集自动设置分区的数量。但是,您也可以手动设置它作为第二个参数并行化(sc.parallelize(data, 10))。
1.2 SparkContext’s textFile(外部数据集)
Spark可以从Hadoop支持的任何存储源创建分布式数据集,包括本地文件系统、HDFS、Cassandra、HBase、Amazon S3等。SCAP支持 text files, SequenceFiles,和任何其他Hadoop输入格式。
本地文件
val distFile = sc.textFile("file:///home/hadoop/data/input.txt")
hdfs文件
val distFile = sc.textFile("hdfs://192.168.137.120/input.txt")
2 注意事项
- 如果使用本地文件,必须在所有工作节点上存在该文件,访问时能够访问到。
- Spark文件的输入方法,包括文本文件,目录、压缩文件和通配符。例如textFile(“/my/directory”);
textFile(“/my/directory/*.txt”);
textFile(“/my/directory/*.gz”)。 - textFile 方法还采用一个可选的第二个参数来控制文件分区的数量。默认情况下,Spark为文件的每个块创建一个分区(在HDFS中默认为128MB),但也可以通过传递较大的值来请求更高数量的分区。请注意,分区不能比块少。