其目的在于对 Spark 有个初步的认识, 了解RDD 的用法。 Spark 与 Hadoop 最大的区别是 Spark 基于内存计算, 降低因 I/O 交互带来的计算效率损耗。spark在逻辑算法上优于Hadoop,但其他算法不一定。
emp.csv表内容如下:
1.启动spark
出现下图为成功
2.读取文件3.分割表,用map()对文本进行分割,每行转换成列表形式,逗号为间隔
collect算子执行整个计算(惰性计算,从这里才真正开始计算
4.构造需要的数据(部门号,工资
其目的在于对 Spark 有个初步的认识, 了解RDD 的用法。 Spark 与 Hadoop 最大的区别是 Spark 基于内存计算, 降低因 I/O 交互带来的计算效率损耗。spark在逻辑算法上优于Hadoop,但其他算法不一定。
emp.csv表内容如下:
1.启动spark
出现下图为成功
2.读取文件3.分割表,用map()对文本进行分割,每行转换成列表形式,逗号为间隔
collect算子执行整个计算(惰性计算,从这里才真正开始计算
4.构造需要的数据(部门号,工资