HDFS 使用Hadoop 中自带的词频统计程序，对数据集进行词频统计

最新推荐文章于 2024-06-30 17:10:23 发布

码猿小菜鸡

最新推荐文章于 2024-06-30 17:10:23 发布

阅读量5.5k

点赞数 1

分类专栏：大数据人工智能文章标签： hadoop big data 词频统计 hdfs

本文链接：https://blog.csdn.net/weixin_47160526/article/details/120861608

版权

人工智能同时被 2 个专栏收录

23 篇文章 17 订阅

订阅专栏

大数据

4 篇文章 0 订阅

订阅专栏

实验题目： `词频统计`

假设HDFS 上有两个文件wordfile1.txt 和wordfile2.txt(其他文件也行），运行Hadoop 中自带的词频统计程序，对数据集进行`词频统计`。

一、准备工作：

1. 按CDH 环境说明文档配置

在这里插入图片描述

相对目录转到/user/hdfs ，那么新创建的用户文件夹bigdata***就在/user/ hdfs 目录之下。

2. 在Hdfs中创建wordfile1.txt 和wordfile2.txt文件

方法一：新建input文件夹，传到hdfs后，使用vim命令创建编辑txt文件

（1）在服务器上新建一个input文件夹

mkdir input

（2）把input 上传到先前我们准备的bigdata***文件夹

hadoop fs -put input bigdata43

（3）使用vim 命令创建并写入wordfile1.txt 和wordfile2.txt，由于wordfile1.txt 和wordfile2.txt 起先并不存在，所以vim 命令会先创建一个缓存文件来进行编辑,键入完文本内容后，按esc,再输入:wq ,保存退出即可。

方法二：新建input文件夹，在其中新建txt文件后，将input文件夹直接上传到hdfs

（1）本地新建一个input文件夹，使用Xftp将文件夹传输到服务器

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GNhNkNI0-1634697977496)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20211014101004298.png)]$

（2）把input 上传到先前我们准备的bigdata***文件夹

hadoop fs -put input bigdata43

二、开始实验

1. 运行Hadoop 中自带的词频统计程序，进行词频统计

hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-examples-3.0.0-cdh6.2.0.jar wordcount bigdata43/input bigdata43/output/output1

或者

yarn jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-examples-3.0.0-cdh6.2.0.jar wordcount bigdata43/input bigdata43/output/output1

出现以下图片即运行成功

在这里插入图片描述

注意：

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-raMVZDHt-1634697977505)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20211014104040262.png)]$

2. 查看输出文件名称：

hadoop fs -ls /output/output1/*

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jcEU7TL9-1634697977508)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20211014103600804.png)]$

3. 查看统计结果：

hadoop fs -ls /output/output1/*

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ySpvy0BL-1634697977511)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20211014103828952.png)]$