一准备本地系统文件
1、在/home
目录里创建test.txt
2、
单词用空格分隔
3、执行命令:start-dfs.sh
4、
将test.txt
上传到HDFS的/park
目录里
5、查看文件内容
二启动Spark Shell
1、录执行命令:start-all.sh
2、
启动Spark Shell
3、查看Spark Shell的WebUI界面
三、创建RDD
1、执行命令:val rdd = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8))
2、
执行命令:rdd.collect()
,收集rdd数据进行显示
3、执行命令:rdd.collect()
,收集rdd数据进行显示
4、执行命令:val rdd = sc.textFile("file:///home/test.txt")
5、
执行命令:val lines = rdd.collect()
,查看RDD中的内容,保存到常量lines
6、
执行命令:lines.foreach(println)
(利用foreach遍历算子)
7、执行命令:for (line <- lines) println(line)
8、执行命令:for (line <- lines) println(line)
9、执行命令:val rdd = sc.textFile("hdfs://master:9000/park/test.txt")
10、
执行命令:val lines = rdd.collect
,查看RDD中的内容
11、获取包含spark
的行,执行命令:val sparkLines = rdd.filter((line) => line.contains("spark"))
(filter是一个转换算子[transformation operator])
12、其实,有更简单的写法,执行命令:val sparkLines = rdd.filter(_.contains("spark"))
13、利用遍历算子显示sparkLines
内容