RDD的创建方式及注意事项

1 RDD的创建方式
1.1 SparkContext’s parallelize(并行化集合)

并行化集合通过调用SparkContext的并行化方法在驱动程序(Scala Seq)中的现有集合上创建的。复制集合的元素以形成可并行操作的分布式数据集。

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)

并行集合的一个重要参数:可以设置分区的数量。 Spark将为集群的每个分区运行一个任务。通常,对于集群中的每个CPU,都需要2-4个分区。Spark会根据您的群集自动设置分区的数量。但是,您也可以手动设置它作为第二个参数并行化(sc.parallelize(data, 10))。

1.2 SparkContext’s textFile(外部数据集)

Spark可以从Hadoop支持的任何存储源创建分布式数据集,包括本地文件系统、HDFS、Cassandra、HBase、Amazon S3等。SCAP支持 text files, SequenceFiles,和任何其他Hadoop输入格式。

本地文件
val distFile = sc.textFile("file:///home/hadoop/data/input.txt") 
hdfs文件
val distFile = sc.textFile("hdfs://192.168.137.120/input.txt") 
2 注意事项
  1. 如果使用本地文件,必须在所有工作节点上存在该文件,访问时能够访问到。
  2. Spark文件的输入方法,包括文本文件,目录、压缩文件和通配符。例如textFile(“/my/directory”);
    textFile(“/my/directory/*.txt”);
    textFile(“/my/directory/*.gz”)。
  3. textFile 方法还采用一个可选的第二个参数来控制文件分区的数量。默认情况下,Spark为文件的每个块创建一个分区(在HDFS中默认为128MB),但也可以通过传递较大的值来请求更高数量的分区。请注意,分区不能比块少。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值