spark编写WordCount

小酱饼

于 2023-05-12 10:13:48 发布

阅读量628

点赞数 2

文章标签： hdfs hadoop 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_65195823/article/details/130618141

版权

文章目录

前言
一、在hdfs创建in.txt文件
二、运行wordcount

一、在hdfs创建in.txt文件

1.在hdfs的/user/spark/in/目录下建一个in.txt文件

分析如下：

(1).我们需要现在hdfs中创建文件所需目录。

1>创建文件夹

[e93b8f root@master ~]$ hdfs dfs -mkdir /user
[e93b8f root@master ~]$ hdfs dfs -mkdir /user/spark/
[e93b8f root@master ~]$ hdfs dfs -mkdir /user/spark/in

2>也可通过命令创建多级目录。

[ebdfc5 root@master ~]$ hdfs dfs -mkdir -p /user/spark/in/
[ebdfc5 root@master ~]$ hdfs dfs -ls /user/spark/in/

3>通过命令查看是否创建成功

[ebdfc5 root@master ~]$ hdfs dfs -ls /user/spark/

(2).在根目录创建in.txt文件并将其传到hdfs中

1>首先创建txt文件

[e93b8f root@master ~]$ vim in.txt

在文件中输入内容

hello world
ni hao

2>通过pwd查看本地文件所在路径

[ebdfc5 root@master ~]$ pwd

3>文件创建成功之后，将本地的in.txt文件上传至hdfs中。

hadoop fs -put /root/in.txt hdfs:/user/spark/in/

4> 在hdfs中查看是否已经存在。

二、运行wordcount

2.在spark-shell中编写WordCount代码和运行。

1>启动spark-shell

[131ba4 root@master ~]$ spark-shell

2>写入wordcount的scala代码并运行

scala> val file=sc.textFile("hdfs://master:8020/user/spark/in/in.txt")
scala> val count=file.flatMap(line => line.split(" ")).map(word =>(word,1)).reduceByKey(_+_)
scala> count.collect()

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

小酱饼 CSDN认证博客专家 CSDN认证企业博客

码龄3年

13: 原创

131万+: 周排名

7万+: 总排名

3万+: 访问

: 等级

271: 积分

62: 粉丝

117: 获赞

19: 评论

245: 收藏

私信

关注

热门文章

分类专栏

html 1篇
前端 1篇
大数据 7篇
hadoop 7篇
C语言 1篇
MySQL 2篇

最新评论

hadoop格式化失败-拒绝连接
普通网友: 文章内容通俗易懂，适合不同层次的读者。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
hadoop格式化失败-拒绝连接
CSDN-Ada助手: 恭喜您写了第11篇博客！对于hadoop格式化失败-拒绝连接这一问题进行了探讨，这是非常有价值的。希望您能继续保持创作的热情和耐心，不断分享您的学习和经验。下一步建议可以尝试深入研究hadoop相关的其他常见问题，为大家提供更多解决方案。加油！
hadoop格式化失败-拒绝连接
CSDN-Ada助手: 恭喜您第11篇博客的发布！看到您遇到的问题并通过博客分享解决方案，实在是令人钦佩。希望您在未来的创作中能够继续分享更多有关hadoop的经验和教训，或许可以尝试写一些实用的技术教程或案例分析，让更多人受益。加油！期待您的下一篇作品。
hadoop格式化失败-拒绝连接
普通网友: 这篇文章是优质之作，内容充实，结构明晰，语言流畅且通俗易懂，适合广大读者阅读。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
spark的安装与部署
m0_74988324: Error: Cannot load main class from JAR file:/opt/servers/mongodb_demo/shardcluster/spark-2.3.2-bin-hadoop2.7/bin/%20--master Run with --help for usage help or --verbose for debug output 这个问题怎么解决？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。