二、RDD算子
RDD被创建后是只读的,不允许修改。Spark提供了丰富的用于操作RDD的方法,这些方法被称为算子。一个创建完成的RDD只支持两种算子:转换(Transformation)算子和行动(Action)算子。
(一)转换算子
RDD处理过程中的“转换”操作主要用于根据已有RDD创建新的RDD,每一次通过Transformation算子计算后都会返回一个新RDD,供给下一个转换算子使用。
常用转换算子操作的API
(二)行动算子
2、把文件上传到HDFS
- 将
words.txt
上传到HDFS系统的/park
目录里
- 说明:
/park
是在上一讲我们创建的目录 - 查看文件内容
(二)启动Spark Shell
1、启动HDFS服务
- 执行命令:
start-dfs.sh
2、启动Spark服务
- 执行命令:
start-all.sh