val sparkConf = new SparkConf().setAppName("test")
val sc = new SparkContext(sparkConf)
val cacheRDD = sc.textFile(path,2)
textFile(path,minPartitions):path是String类型的一个URI,可以是HDFS和本地文件URI;minPartitions是指定数据的分区,如果不指定分区,当你的核数大于2的时候,不指定分区数默认就是2;返回的是一个字符串类型的RDD,也就是RDD的内部形式Iterator[(String)]
当数据大于128M的时候,Spark为每一块(block)创建一个分片(Hadoop2.x之后128m一个块)
path可以是单个文件,可以是多个文件
也可以使用通配符的形式代替文件,比如val path = "/usr/local/spark/data/*/*"
采用通配符,读取多个文件名类似的文件
for(i<- 1 to 2){
val rdd1 = sc.textFile(s"/usr/local/spark/data/test$i*",2)
}
//读取相同后缀的文件
val path = "/usr/local/spark/data/*/*.txt"