Spark基础实验

最新推荐文章于 2024-05-21 09:47:21 发布

安西宁

最新推荐文章于 2024-05-21 09:47:21 发布

阅读量507

点赞数

分类专栏：大数据文章标签： spark

本文链接：https://blog.csdn.net/weixin_44754632/article/details/106973648

版权

大数据专栏收录该内容

5 篇文章 0 订阅

订阅专栏

博主的spark建立在yarn上，已经提前安装好了hadoop2.7.3
记得联网后再进行实验，否则可能报错如下：
pyspark spark-shell无法指定被请求的地址: Service ‘sparkDriver’ failed after 16 retries (on a random free port)
进入hadoop下的sbin文件夹，终端输入命令

./start-all.sh

随即浏览器打开localhost：8088可查看网页观测情况如下：
在这里插入图片描述来到spark的sbin运行命令

./start-all.sh

浏览器打开localhost：8080可查看网页观测情况如下：
在这里插入图片描述

运行Spark自带的示例程序

cd /usr/Spark/spark/
./bin/run-example SparkPi 2>&1 | grep "Pi is roughly"

结果如下：
在这里插入图片描述

spark-shell

进入scala命令行模式

cd /usr/Spark/spark/
./bin/spark-shell

输入相关命令进行字符统计或简单计算实验

scala> 1+2+3+4
res0: Int = 10
scala> 9*2
res2: Int = 18

scala> val textFile = sc.textFileFile("file:///usr/Spark/spark/READEME.md")
scala> textFile.count()
res4: Long = 109
scala> val linesCountWithSpark=textFile.filter(line=>line.contains("Spark")).count()
linesCountWithSpark: Long = 20

在生产环境中部署需要开发独立的Spark应用程序编写应用程序代码。

编译打包：
scala代码：sbt（Simple Build Tool）
Java代码：Maven
Python代码：无需打包
提交Spark中运行：

/usr/Spark/spark/bin/spark-submit --class "SimpleApp" ~/sparkapp/target/scala-2.12.10/simple-project_2.12.10.jar

退出Spark Shell

scala> :quit

Pyspark的使用
简书：大数据入门与实战-PySpark的使用教程

更多详情可参见林子雨老师的博文：
Spark安装和编程实践（Spark2.4.0）

安西宁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark基础实验

记得联网后再进行实验，否则可能报错如下：pyspark spark-shell无法指定被请求的地址: Service ‘sparkDriver’ failed after 16 retries (on a random free port)进入scala命令行模式cd /usr/Spark/spark/./bin/spark-shell 输入相关命令进行字符统计或简单计算实验scala> 1+2+3+4res0: Int = 10scala> 9*2res2: Int
复制链接

扫一扫

专栏目录