Ubuntu20.04使用spark进行单词统计实验详细步骤

安装spark要在hadoop安装成功的情况下进行,这里用的hadoop版本是2.10.2

一、环境搭建

使用清华大学下载站镜像进行下载,网址: https://mirrors.tuna.tsinghua.edu.cn/

1. 点击 apache

 2. 在新页面中,使用快捷键 ctrl+f 输入spark 进行查找并点击 spark

 

 3. 选择需要的spark版本,一般直接选择最新版

 

 4.  选择与之前使用的hadoop版本相同的spark

    例如:我使用hadoop2.10 就选择 hadoop2 那一项

5. 点击下载,下载完毕后移动到一个目录下

    我选择的是 /usr/local/,如果权限不够就 root

su root          //进入root用户
mv spark-3.3.0-bin-hadoop2.tgz /usr/local

 6.解压文件

sudo tar -zxvf spark-3.3.0-bin-hadoop2.tgz

做到这一步环境就配置好了,接下来进入编程环节

二、在pyspark中编写代码,实现统计词频

 1. 编写统计词频需要的文件

cd /usr/local/spark
vi file1

进入 vi 界面后输入需要统计的内容

vi操作方法: i 进行编辑      Esc 退出编辑    :wq 保存并退出

 2. 执行以下命令,启动pyspark(默认local模式)

cd /usr/local/spark         //进入你之前安装spark的路径
./bin/pyspark

显示下面这个超大spark 就是启动成功

3.在pyspark里输入以下代码

from pyspark import SparkConf,SparkContext as sc
conf = SparkConf().setMaster("local").setAppName("wordcount")
sc=SparkContext.getOrCreate(conf)
lines = sc.textFile("file")    //file就是文件的路径,如果文件在其他地方则更改为相应路径
words = lines.flatMap(lambda line:line.split(" "))           //注意split后引号里有空格
count = words.map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y)
print(count.collect())

 每打一行按一下回车,如果出现报错基本是输入代码写错了或是文件没读取到,修改一下路径就可以解决

最终运行结果如下图所示

 参考文章 http://blog.csdn.net/yan88888888888888888/article/details/118600685

  • 2
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值