linux下安装spark

最新推荐文章于 2024-07-23 22:45:12 发布

4.11.12

最新推荐文章于 2024-07-23 22:45:12 发布

阅读量4.9k

点赞数 2

分类专栏： linux

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43854358/article/details/90666193

版权

linux 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

准备工作

1.将需要的jdk和spark安装包下载，这里都放在了/root/tools目录下

jdk的安装和设置

1. 解压缩安装包 tar -xvf jdk-8u151-linux-x64.tar.gz

2. 进入解压缩后的jdk文件中，使用pwd查看当前工作路径，然后修改文件vi ~/.bash_profile

3. ~/.bash_profile 文件的末尾加上jdk的环境变量，内容如下：

4.让刚修改的文件生效，并使用java -version查看是否配置成功

spark的安装与配置

1. 解压spark安装包，tar -xvf spark-2.4.3-bin-hadoop2.7.tgz

2. 进入解压之后的文件中，进入conf目录，查看配置文件

3.修改配置文件spark-env.sh，注意，这个文件默认不存在，这里有spark-env.sh.template，复制一份并命名新文件为spaek-env.sh

4.查看之前的JAVA_HOME路径，在下一步中使用

5.修改文件spark-env.sh，在文件末尾添加如下内容：

6.回到spark的主目录中，找到sbin目录，然后启动spark,使用命令sbin/start-all.sh

7.使用jps查看是否启动成功

8.在spark根目录下的examples下jars目录下有一个jar文件，里面存放很多的例子

9.这里使用jar包，进行一个小测试，求圆周率

10.回到spark主目录，运行如下命令，这里的最后面的100是自己设置的值，可选择其他更大的值进行测试，可能会更精确

结果显示如下：

11.创建两个目录input,output，用来作为文件的输入输出目录

12.输入目录中，创建data.txt文件，内容如下

13.启动spark-shell交互式工具，黄框标记的日志，表示使用变量sc就可以操作Spark context

14.使用spark中的scala语言统计每个单词出现的次数

sc.textFile是读取文件，split(" ")空格分隔字符 map((_,1))单词计数，这里是一个元祖

reduceByKey将相同的进行累加

关注

2
点赞
踩
31

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

4.11.12 CSDN认证博客专家 CSDN认证企业博客

码龄6年

34: 原创

10万+: 周排名

150万+: 总排名

6万+: 访问

: 等级

921: 积分

20: 粉丝

42: 获赞

7: 评论

241: 收藏

私信

关注

热门文章

分类专栏

web安全
C#编程 1篇
MySQL 8篇
python 4篇
linux 4篇
TCP/IP协议 2篇
大数据 5篇
互联网 1篇
数据结构 1篇
爬虫 7篇
软件测试

最新评论

hbase数据导入导出
zhaodaola: 导入前创建表(create)的时候建议将列族选项也加上，否则两个表的压缩、分区等属性可能出现差异。可以参考这篇 https://bjzhanghao.com/p/3045
宝塔部署django项目的过程
小阑打代码: 你好可以问你一些问题吗？
MySQL与Oracle
小屁孩+: 理解万岁，x 不是也是起早贪黑的学吗？但却就是不理解我
MySQL测试题
Tisfy: 好文！，正如：灯火纸窗修竹里，读书声。
宝塔部署django项目的过程
lmy(^_^): 感谢很实用一步步来已经部署好了

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。