HDFS 使用Hadoop 中自带的词频统计程序,对数据集进行词频统计

实验题目: 词频统计

假设HDFS 上有两个文件wordfile1.txt 和wordfile2.txt(其他文件也行),运行Hadoop 中自带的词频统计程序,对数据集进行词频统计

一、准备工作:

1. 按CDH 环境说明文档配置

在这里插入图片描述

相对目录转到/user/hdfs ,那么新创建的用户文件夹bigdata***就在/user/ hdfs 目录之下。

2. 在Hdfs中创建wordfile1.txt 和wordfile2.txt文件

方法一:新建input文件夹,传到hdfs后,使用vim命令创建编辑txt文件

(1)在服务器上新建一个input文件夹

mkdir input

(2)把input 上传到先前我们准备的bigdata***文件夹

hadoop fs -put input bigdata43

(3)使用vim 命令创建并写入wordfile1.txt 和wordfile2.txt,由于wordfile1.txt 和wordfile2.txt 起先并不存在,所以vim 命令会先创建一个缓存文件来进行编辑,键入完文本内容后,按esc,再输入:wq ,保存退出即可。

方法二:新建input文件夹,在其中新建txt文件后,将input文件夹直接上传到hdfs

(1)本地新建一个input文件夹,使用Xftp将文件夹传输到服务器

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GNhNkNI0-1634697977496)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20211014101004298.png)]

​ (2)把input 上传到先前我们准备的bigdata***文件夹

hadoop fs -put input bigdata43

二、开始实验

1. 运行Hadoop 中自带的词频统计程序,进行词频统计
hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-examples-3.0.0-cdh6.2.0.jar wordcount bigdata43/input bigdata43/output/output1

或者

yarn jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-examples-3.0.0-cdh6.2.0.jar wordcount bigdata43/input bigdata43/output/output1

出现以下图片即运行成功

在这里插入图片描述

注意:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-raMVZDHt-1634697977505)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20211014104040262.png)]

2. 查看输出文件名称:
hadoop fs -ls /output/output1/*

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jcEU7TL9-1634697977508)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20211014103600804.png)]

3. 查看统计结果:
hadoop fs -ls /output/output1/*

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ySpvy0BL-1634697977511)(C:\Users\lenovo\AppData\Roaming\Typora\typora-user-images\image-20211014103828952.png)]

三、运行成功,退出程序

  • 1
    点赞
  • 44
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值