准备工作
1.将需要的jdk和spark安装包下载,这里都放在了/root/tools目录下
jdk的安装和设置
1. 解压缩安装包 tar -xvf jdk-8u151-linux-x64.tar.gz
2. 进入解压缩后的jdk文件中,使用pwd查看当前工作路径,然后修改文件vi ~/.bash_profile
3. ~/.bash_profile 文件的末尾加上jdk的环境变量,内容如下:
4.让刚修改的文件生效,并使用java -version查看是否配置成功
spark的安装与配置
1. 解压spark安装包,tar -xvf spark-2.4.3-bin-hadoop2.7.tgz
2. 进入解压之后的文件中,进入conf目录,查看配置文件
3.修改配置文件spark-env.sh,注意,这个文件默认不存在,这里有spark-env.sh.template,复制一份并命名新文件为spaek-env.sh
4.查看之前的JAVA_HOME路径,在下一步中使用
5.修改文件spark-env.sh,在文件末尾添加如下内容:
6.回到spark的主目录中,找到sbin目录,然后启动spark,使用命令sbin/start-all.sh
7.使用jps查看是否启动成功
8.在spark根目录下的examples下jars目录下有一个jar文件,里面存放很多的例子
9.这里使用jar包,进行一个小测试,求圆周率
10.回到spark主目录,运行如下命令,这里的最后面的100是自己设置的值,可选择其他更大的值进行测试,可能会更精确
结果显示如下:
11.创建两个目录input,output,用来作为文件的输入输出目录
12.输入目录中,创建data.txt文件,内容如下
13.启动spark-shell交互式工具,黄框标记的日志,表示使用变量sc就可以操作Spark context
14.使用spark中的scala语言统计每个单词出现的次数
sc.textFile是读取文件,split(" ")空格分隔字符 map((_,1))单词计数,这里是一个元祖
reduceByKey将相同的进行累加