Spark大数据处理讲课笔记2.4 IDEA开发词频统计项目

ZYF2190003497

已于 2023-04-27 11:50:34 修改

阅读量82

点赞数

文章标签： intellij-idea spark scala

于 2023-04-10 16:57:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zyf2190003497/article/details/130051645

版权

零、本讲学习目标

掌握本地模式执行Spark程序
掌握集群模式执行Spark程序

一、词频统计准备工作

单词计数是学习分布式计算的入门程序，有很多种实现方式，例如MapReduce；使用Spark提供的RDD算子可以更加轻松地实现单词计数。
在IntelliJ IDEA中新建Maven管理的Spark项目，并在该项目中使用Scala语言编写Spark的WordCount程序，最后将项目打包提交到Spark集群（Standalone模式）中运行。

（一）创建本地单词文件

在D:\spark_work\wordcount\input里创建单词文件words.txt

（二）启动集群的HDFS与Spark

启动HDFS服务

启动Spark集群

（二）在HDFS上准备单词文件

在虚拟机上创建单词文件 - words.txt

将单词文件上传到HDFS指定目录/wordcount/input

二、本地模式执行Spark程序

（一）新建Maven项目

新建Maven项目，基于JDK11

设置项目信息（项目名称、保存位置、组编号以及产品编号）

单击【Finish】按钮

将java目录改成scala目录

（二）添加相关依赖和构建插件

在pom.xml文件里添加依赖与Maven构建插件

由于源程序目录改成了scala，在<build>元素里必须添加子元素<sourceDirectory>，指定目录src/main/scala

（三）创建日志属性文件

在resources目录里创建日志属性文件 - log4j.properties

log4j.rootLogger=ERROR, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.Pa

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark大数据处理讲课笔记2.4 IDEA开发词频统计项目

新建Maven项目，基于JDK11。安装配置Scala 2.12.15。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。