Ubuntu20.04使用spark进行单词统计实验详细步骤

令狐少梓

已于 2022-09-21 10:43:49 修改

阅读量1.1k

点赞数 2

文章标签： spark ubuntu 大数据

于 2022-09-16 00:07:57 首次发布

本文链接：https://blog.csdn.net/weixin_64567789/article/details/126881453

版权

安装spark要在hadoop安装成功的情况下进行，这里用的hadoop版本是2.10.2

一、环境搭建

使用清华大学下载站镜像进行下载，网址： https://mirrors.tuna.tsinghua.edu.cn/

1. 点击 apache

2. 在新页面中，使用快捷键 ctrl+f 输入spark 进行查找并点击 spark

3. 选择需要的spark版本，一般直接选择最新版

4. 选择与之前使用的hadoop版本相同的spark

例如：我使用hadoop2.10 就选择 hadoop2 那一项

5. 点击下载，下载完毕后移动到一个目录下

我选择的是 /usr/local/，如果权限不够就 root

su root          //进入root用户

mv spark-3.3.0-bin-hadoop2.tgz /usr/local

6.解压文件

sudo tar -zxvf spark-3.3.0-bin-hadoop2.tgz

做到这一步环境就配置好了，接下来进入编程环节

二、在pyspark中编写代码，实现统计词频

1. 编写统计词频需要的文件

cd /usr/local/spark
vi file1

进入 vi 界面后输入需要统计的内容

vi操作方法： i 进行编辑 Esc 退出编辑 :wq 保存并退出

2. 执行以下命令，启动pyspark(默认local模式)

cd /usr/local/spark         //进入你之前安装spark的路径
./bin/pyspark

显示下面这个超大spark 就是启动成功

3.在pyspark里输入以下代码

from pyspark import SparkConf,SparkContext as sc

conf = SparkConf().setMaster("local").setAppName("wordcount")

sc=SparkContext.getOrCreate(conf)

lines = sc.textFile("file")    //file就是文件的路径，如果文件在其他地方则更改为相应路径

words = lines.flatMap(lambda line:line.split(" "))           //注意split后引号里有空格

count = words.map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y)

print(count.collect())

每打一行按一下回车，如果出现报错基本是输入代码写错了或是文件没读取到，修改一下路径就可以解决

最终运行结果如下图所示

参考文章 http://blog.csdn.net/yan88888888888888888/article/details/118600685