常用API讲解-文件的读取与存储
SparkAPI–本地文本文件的读取和保存(文本文件指txt文件)
1.读取本地文本文件
input = sc.textFile("想要打开的文件路径") #此时的input就整个文本文件的一个RDD
2.当我们对input这个RDD进行数次转换操作和行动操之后,我们需要对运算完的结果进行保存
result.saveAsTextFile("需要保存的文件路径")
注:Spark还支持多种文件格式(包括JOSN,CSV等),这些文件的读取和保存与文本文件类似,
用到时候再查就可以,但是还是应该了解JOSN和CSV等文件的组织形式
补充:创建RDD还可以直接输入创建,但是这种方式不常用,方法如下:
lines = sc.parallelize(["pandas","i like pandas"])