spark textFile基本语法

最新推荐文章于 2022-11-22 10:58:27 发布

zajbetterme

最新推荐文章于 2022-11-22 10:58:27 发布

阅读量562

点赞数 1

分类专栏： Spark Scala

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zajbetterme/article/details/103877523

版权

Spark 同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

val sparkConf = new SparkConf().setAppName("test")

val sc = new SparkContext(sparkConf)

val cacheRDD = sc.textFile(path,2)

textFile(path,minPartitions)：path是String类型的一个URI，可以是HDFS和本地文件URI；minPartitions是指定数据的分区，如果不指定分区，当你的核数大于2的时候，不指定分区数默认就是2；返回的是一个字符串类型的RDD，也就是RDD的内部形式Iterator[(String)]

当数据大于128M的时候，Spark为每一块（block）创建一个分片（Hadoop2.x之后128m一个块）

path可以是单个文件，可以是多个文件

也可以使用通配符的形式代替文件，比如val path = "/usr/local/spark/data/*/*"

采用通配符，读取多个文件名类似的文件

for(i<- 1 to 2){

val rdd1 = sc.textFile(s"/usr/local/spark/data/test$i*",2)

}

//读取相同后缀的文件

val path = "/usr/local/spark/data/*/*.txt"

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark textFile基本语法

val sparkConf = new SparkConf().setAppName("test")val sc = new SparkContext(sparkConf)val cacheRDD = sc.textFile(path,2)textFile(path,minPartitions)：path是String类型的一个URI，可以是HDFS和本地文件URI；minParti...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。