实验题目: 词频统计
假设HDFS 上有两个文件wordfile1.txt 和wordfile2.txt(其他文件也行),运行Hadoop 中自带的词频统计程序,对数据集进行词频统计
。
一、准备工作:
1. 按CDH 环境说明文档配置
相对目录转到/user/hdfs ,那么新创建的用户文件夹bigdata***就在/user/ hdfs 目录之下。
2. 在Hdfs中创建wordfile1.txt 和wordfile2.txt文件
方法一:新建input文件夹,传到hdfs后,使用vim命令创建编辑txt文件
(1)在服务器上新建一个input文件夹
mkdir input
(2)把input 上传到先前我们准备的bigdata***文件夹
hadoop fs -put input bigdata43
(3)使用vim 命令创建并写入wordfile1.txt 和wordfile2.txt,由于wordfile1.txt 和wordfile2.txt 起先并不存在,所以vim 命令会先创建一个缓存文件来进行编辑,键入完文本内容后,按esc,再输入:wq ,保存退出即可。
方法二:新建input文件夹,在其中新建txt文件后,将input文件夹直接上传到hdfs
(1)本地新建一个input文件夹,使用Xftp将文件夹传输到服务器
(2)把input 上传到先前我们准备的bigdata***文件夹
hadoop fs -put input bigdata43
二、开始实验
1. 运行Hadoop 中自带的词频统计程序,进行词频统计
hadoop jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-examples-3.0.0-cdh6.2.0.jar wordcount bigdata43/input bigdata43/output/output1
或者
yarn jar /opt/cloudera/parcels/CDH/jars/hadoop-mapreduce-examples-3.0.0-cdh6.2.0.jar wordcount bigdata43/input bigdata43/output/output1
出现以下图片即运行成功
注意:
2. 查看输出文件名称:
hadoop fs -ls /output/output1/*
3. 查看统计结果:
hadoop fs -ls /output/output1/*