大数据技术----Spark实验

最新推荐文章于 2024-05-21 09:47:21 发布

暖暖的味道

最新推荐文章于 2024-05-21 09:47:21 发布

阅读量1k

点赞数 1

分类专栏：虚拟机环境搭建文章标签：大数据 spark 数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_56853728/article/details/126772068

版权

虚拟机环境搭建专栏收录该内容

2 篇文章 0 订阅

订阅专栏

安装Spark,解压安装包

修改名称，方便之后输入

sudo vim spark-env.sh 新建spark-env.sh文件,并进行配置

通过运行Spark自带的示例，验证Spark是否安装成功

通过grep过滤信息，查看示例结果

进入spark shell

加载text文件

获取RDD文件textFile的第一行内容

获取RDD文件textFile所有项的计数

抽取含有“Spark”的行，返回一个新的RDD

统计新的RDD的行数

找出文本中每行的最多单词数

退出spark shell

（一）编写Scala独立应用程序

创建安装目录

解压目录

把bin目录下的sbt-launch.jar复制到sbt安装目录下

sbt 可执行文件中添加如下信息

保存后，还需要为该Shell脚本文件增加可执行权限：

最后运行如下命令，检验 sbt 是否可用

进入用户主文件夹，并创建应用程序根目录

创建所需的文件夹结构

在 ./sparkapp/src/main/scala 下建立一个名为 SimpleApp.scala 的文件

我们需要通过 sbt 进行编译打包。在~/sparkapp这个目录中新建文件simple.sbt。在simple.sbt中添加如下内容，声明该独立应用程序的信息以及与 Spark 的依赖关系

查看程序文件结构

我们就可以通过如下代码将整个应用程序打包成 JAR

将生成的 jar 包通过 spark-submit 提交到 Spark 中运行

（二）Java独立应用编程

手动安装maven，解压到/usr/local/maven中

在终端执行如下命令创建一个文件夹sparkapp2作为应用程序根目录

在 ./sparkapp2/src/main/java 下建立一个名为 SimpleApp.java 的文件（vim ./sparkapp2/src/main/java/SimpleApp.java），添加代码如下

该程序依赖Spark Java API,因此我们需要通过Maven进行编译打包。在./sparkapp2中新建文件pom.xml(vim ./sparkapp2/pom.xml),添加内容如下，声明该独立应用程序的信息以及与Spark的依赖关系

搜索spark-core可以找到相关依赖关系信息

为了保证maven能够正常运行，先执行如下命令检查整个应用程序的文件结构

通过如下代码将这整个应用程序打包成Jar

将生成的jar包通过spark-submit提交到Spark中运行

暖暖的味道

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
大数据技术----Spark实验

虚拟机之Spark环境搭建
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

暖暖的味道 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。