初探MapReduce

1)创建Maven项目

  • 创建Maven项目 - MRWordCount
  • 单击【Finish】按钮

(2)创建待词频统计文件

  • 在finalshell里面创建目录wordcount

(3)上传文件到HDFS指定目录

  • 启动集群HDFS服务
  • 在HDFS上创建/wordcount目录,并将words.txt上传到该目录

4)添加相关依赖

  • pom.xml文件里添加hadoopjunit依赖
<dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.3.4</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
            <scope>compile</scope>
        </dependency>
    </dependencies>

(5)创建日志属性文件

  • resources目录里创建log4j.properties文件

 

log4j.rootLogger=INFO, stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/wordcount.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

6)创建词频统计映射器类

  • 创建net.hw.mr包,在包里创建WordCountMapper

 

  • 为了更好理解Mapper类的作用,在map()函数里暂时不进行每行文本分词处理,直接利用context输出keyvalue
package net.zyf.mr;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

/**
 * 功能:词频统计映射器类
 * 作者:钟云帆
 * 日期:2022年12月2日
 */
public class WordCountMapper extends Mapper<LongWritable, Text, LongWritable, Text> {
    @Override
    protected void map(LongWritable key, Text value, Context context)
            throws IOException, InterruptedException {
        context.write(key, value);
    }
}

(7)创建词频统计驱动器类

  • net.hw.mr包里创建WordCountDriver
  • 注意导包问题
  • 代码如下 
    package net.zyf.mr;
    
    import org.apache.hadoop.conf.Configuration;
    import org.apache.hadoop.fs.FSDataInputStream;
    import org.apache.hadoop.fs.FileStatus;
    import org.apache.hadoop.fs.FileSystem;
    import org.apache.hadoop.fs.Path;
    import org.apache.hadoop.io.IOUtils;
    import org.apache.hadoop.io.LongWritable;
    import org.apache.hadoop.io.Text;
    import org.apache.hadoop.mapreduce.Job;
    import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
    import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
    
    import java.net.URI;
    
    /**
     * 功能:词频统计驱动器类
     * 作者:钟云帆
     * 日期:2022年12月2日
     */
    public class WordCountDriver {
        public static void main(String[] args) throws Exception {
            // 创建配置对象
            Configuration conf = new Configuration();
            // 获取作业实例
            Job job = Job.getInstance(conf);
    
            // 设置作业启动类
            job.setJarByClass(WordCountDriver.class);
    
            // 设置Mapper类
            job.setMapperClass(WordCountMapper.class);
            // 设置map任务输出键类型
            job.setMapOutputKeyClass(LongWritable.class);
            // 设置map任务输出值类型
            job.setMapOutputValueClass(Text.class);
    
            // 定义uri字符串
            String uri = "hdfs://master:9000";
            // 创建输入目录
            Path inputPath = new Path(uri + "/wordcount");
            // 创建输出目录
            Path outputPath = new Path(uri + "/wordcount/result");
    
            // 获取文件系统
            FileSystem fs = FileSystem.get(new URI(uri), conf);
            // 删除输出目录
            fs.delete(outputPath, true);
    
            // 给作业添加输入目录
            FileInputFormat.addInputPath(job, inputPath);
            // 给作业设置输出目录
            FileOutputFormat.setOutputPath(job, outputPath);
    
            // 等待作业完成
            job.waitForCompletion(true);
    
            // 输出统计结果
            System.out.println("======统计结果======");
            FileStatus[] fileStatuses = fs.listStatus(outputPath);
            for (int i = 1; i < fileStatuses.length; i++) {
                // 输出结果文件路径
                System.out.println(fileStatuses[i].getPath());
                // 获取文件输入流
                FSDataInputStream in = fs.open(fileStatuses[i].getPath());
                // 将结果文件显示在控制台
                IOUtils.copyBytes(in, System.out, 4096, false);
            }
        }
    }
    
    
  • 不要导成org.apache.hadoop.mapred包下的FileInputFormatFileOutputFormat咯~
    import org.apache.hadoop.mapred.FileInputFormat;
    import org.apache.hadoop.mapred.FileOutputFormat;
    

(8)启动集群YARN服务

  • 在主节点上执行命令:start-yarn.sh

(9)启动词频统计驱动器类,看看结果

  • 运行WordCountDriver类,报错找不到winutils.exe文件

 

 - 解决办法:下载对应版本的winutils.exe和hadoop.dll,放在hadoop安装目录的bin子目录里
https://github.com/cdarlint/winutils/blob/master/hadoop-3.2.2/bin/winutils.exe
https://github.com/cdarlint/winutils/blob/master/hadoop-3.2.2/bin/hadoop.dll

 配置环境变量

 此时,运行程序,就没有问题了

如果不想看到统计结果之前的大堆信息,可以修改log4j.properties文件,将INFO改为ERROR 

再运行程序,查看结果

  • 行首数字,表示每行起始位置在整个文件的偏移量(offset)。

    第一行:Hello World Bye World\r\n 18个字母,3个空格,2个转义字符,总共23个字符,因此,第二行起始位置在整个文件的偏移量就是23。

    第二行:Hello Hadoop Bye Hadoop\r\n 20个字母,3个空格,2个转义字符,总共25个字符,因此,第三行起始位置在整个文件的偏移量就是23 + 25 = 48。

    其实,行首数字对于我们做单词统计没有任何用处,只需要拿到每一行内容,按空格拆分成单词,每个单词计数1,因此,WordCoutMapper的输出应该是单词和个数,于是,输出键类型为Text,输出值类型为IntWritable。

  • 利用HDFS集群WebUI界面查看结果文件

(10)修改词频统计映射器类

  • 将每行按空格拆分成单词数组,输出单词 1的键值对
  • 代码如下
    package net.zyf.mr;
    
            import org.apache.hadoop.io.IntWritable;
            import org.apache.hadoop.io.LongWritable;
            import org.apache.hadoop.io.Text;
            import org.apache.hadoop.mapreduce.Mapper;
    
            import java.io.IOException;
    
    /**
     * 功能:词频统计映射器类
     * 作者:钟云帆
     * 日期:2022年12月2日
     */
    //public class WordCountMapper extends Mapper<LongWritable, Text, LongWritable, Text> {
    //    @Override
    //    protected void map(LongWritable key, Text value, Context context)
    //            throws IOException, InterruptedException {
    //        context.write(key, value);
    //    }
    //}
    public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
        @Override
        protected void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            // 获取行内容
            String line = value.toString();
            // 按空格拆分得到单词数组
            String[] words = line.split(" ");
            // 遍历单词数组,生成输出键值对
            for (int i = 0; i < words.length; i++) {
                context.write(new Text(words[i]), new IntWritable(1));
            }
        }
    }
    
    
  • 由于WordCountMapper输出键值类型发生变化,所以必须告诉WordCountDriver

(11)修改词频统计驱动器类

  • 修改map任务输出键值类型

(12)启动词频统计驱动器类,查看结果

  • 观察输出结果,map阶段会按键排序输出

(13)创建词频统计归并器类

  • 一个类继承Reducer,变成一个Reducer组件类
  • Reducer组件会接收Mapper组件的输出结果
  • 第一个泛型对应的是Mapper输出key类型,第二个泛型对应的是Mapper输出value类型
  • 第三个泛型和第四个泛型是Reducer的输出key类型和输出value类型
  • Reducer组件不能单独存在,但是Mapper组件可以单独存在
  • 当引入Reducer组件后,输出结果文件内容就是Reducer的输出key和输出value
  • 在net.hw.mr包里创建WordCountReducer类

package net.zyf.mr;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * 功能:词频统计归并器类
 * 作者:钟云帆
 * 日期:2022年12月02日
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context)
            throws IOException, InterruptedException {
        // 定义输出键出现次数
        int count = 0;
        // 遍历输出值迭代对象,统计其出现次数
        for (IntWritable value : values) {
            count = count + value.get();
        }
        // 生成键值对输出
        context.write(key, new IntWritable(count));
    }
}
  • 由于引入了词频统计归并器,必须在词频统计驱动器类里进行设置

(14)、修改词频统计驱动器类

  • 设置WordCountReducer,并且设置归并任务的输出键值类型

// 设置Reducer类                                  
job.setReducerClass(WordCountReducer.class);   
// 设置reduce任务输出键类型                             
job.setOutputKeyClass(Text.class);             
// 设置reduce任务输出值类型                             
job.setOutputValueClass(IntWritable.class);    

(15)、启动词频统计驱动器类,查看结果

  • 统计出每个单词出现的次数

 知识点学习

(1)MR框架有两个核心组件,分别是Mapper组件和Reducer组件
(2)写一个类,继承Mapper,则变成了一个Mapper组件类
(3)LongWritable,Text(String),IntWritable,NullWritable都是Hadoop序列化类型
(4)Mapper组件将每行的行首偏移量,作为输入key,通过map()传给程序员
(5)Mapper组件会将每行内容,作为输入value,通过map()传给程序员,重点是获取输入value
(6)Mapper的第一个泛型类型对应的是输入key的类型,第二个泛型类型对应的输入value(在初学阶段,第一个和第二个类型写死)
(7)MR框架所处理的文件必须是在HDFS上的
(8)map()被调用几次,取决于文件的行数
(9)通过context进行结果的输出,以输出key和输出value的形式来输出
(10)输出key是由第三个泛型类型决定,输出value是由第四个泛型类型决定
(11)输出结果文件的数据以及行数取决于context.write
(12)Text=>String:  value.toString()
(13)String=>Text:  new Text(string var)
(14)LongWritable=>long:  key.get()
(15)long=>LongWritable: new LongWritable(long var)

(16)、采用多个Reduce做合并
相同key的键值对必须发送同一分区(一个Reduce任务对应一个分区,然后会生成对应的一个结果文件,有多少个Reduce任务,就会有多少个分区,最终就会产生多少个结果文件),否则同一个key最终会出现在不同的结果文件中,那显然不是我们希望看到的结果。

(1)MR默认采用哈希分区HashPartitioner

  • Mapper输出key.hashcode & Integer.MAX_ VALUE % Reduce任务数量

(2)修改词频统计驱动器类,设置分区数量

  • 设置分区数量:3

  •  此时,运行程序,查看结果

  • 可以看到,产生了三个结果文件 

(17)、将三个类合并成一个类完成词频统计

  • net.hw.mr包里创建WordCount

package net.zyf.mr;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;
import java.net.URI;

/**
 * 功能:词频统计
 * 作者:钟云帆
 * 日期:2022年12月02日
 */
public class WordCount extends Configured implements Tool {

    public static class Map extends Mapper<LongWritable, Text, Text, IntWritable> {
        @Override
        protected void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            // 获取行内容
            String line = value.toString();
            // 按空格拆分得到单词数组
            String[] words = line.split(" ");
            // 遍历单词数组,生成输出键值对
            for (int i = 0; i < words.length; i++) {
                // 清洗所有英文标点符号(\p——属性[property],P——标点符号[Punctuation])
                String word = words[i].replaceAll("[\\pP]", "");
                context.write(new Text(word), new IntWritable(1));
            }
        }
    }

    public static class Reduce extends Reducer<Text, IntWritable, Text, IntWritable> {
        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context)
                throws IOException, InterruptedException {
            // 定义输出键出现次数
            int count = 0;
            // 历输出值迭代对象,统计其出现次数
            for (IntWritable value : values) {
                count = count + value.get();
            }
            // 生成键值对输出
            context.write(key, new IntWritable(count));
        }
    }

    @Override
    public int run(String[] strings) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 获取作业实例
        Job job = Job.getInstance(conf);

        // 设置作业启动类
        job.setJarByClass(WordCount.class);

        // 设置Mapper类
        job.setMapperClass(Map.class);
        // 设置map任务输出键类型
        job.setMapOutputKeyClass(Text.class);
        // 设置map任务输出值类型
        job.setMapOutputValueClass(IntWritable.class);

        // 设置Reducer类
        job.setReducerClass(Reduce.class);
        // 设置reduce任务输出键类型
        job.setOutputKeyClass(Text.class);
        // 设置reduce任务输出值类型
        job.setOutputValueClass(IntWritable.class);

        // 定义uri字符串
        String uri = "hdfs://master:9000";
        // 创建输入目录
        Path inputPath = new Path(uri + "/wordcount");
        // 创建输出目录
        Path outputPath = new Path(uri + "/wordcount/result");

        // 设置分区数量(reduce任务数量)
        job.setNumReduceTasks(3);

        // 获取文件系统
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        // 删除输出目录
        fs.delete(outputPath, true);

        // 给作业添加输入目录
        FileInputFormat.addInputPath(job, inputPath);
        // 给作业设置输出目录
        FileOutputFormat.setOutputPath(job, outputPath);

        // 等待作业完成
        boolean res = job.waitForCompletion(true);

        // 输出统计结果
        System.out.println("统计结果:");
        FileStatus[] fileStatuses = fs.listStatus(outputPath);
        for (int i = 1; i < fileStatuses.length; i++) {
            // 输出结果文件路径
            System.out.println(fileStatuses[i].getPath());
            // 获取文件输入流
            FSDataInputStream in = fs.open(fileStatuses[i].getPath());
            // 将结果文件显示在控制台
            IOUtils.copyBytes(in, System.out, 4096, false);
        }

        if (res) {
            return 0;
        } else {
            return -1;
        }
    }

    public static void main(String[] args) throws Exception {
        int res = ToolRunner.run(new WordCount(), args);
        System.exit(res);
    }
}

  •  运行程序,查看结果

(18)、合并分区导致的多个结果文件

  • 采用分区来处理,确实提高了效率,但是现在有多个结果文件,怎么合并它们成为一个最终的一个结果文件呢?
  • 利用hadoop的-getmerge命令来完成:hdfs dfs -getmerge /wordcount/result part-r-final

 

(19)、统计不同单词数

利用MR对多个文件进行词频统计,得到的一个或多个结果文件,多个结果文件可以合并成一个最终结果文件,比如part-r-final,然后利用Linux命令统计行数即可。

  • 利用cat -nu命令

 

  •  利用wc -l命令,统计文件行数,即不同单词数

19、打包上传到虚拟机上运行

  • MR程序可以在IDEA里运行,也可以打成jar包,上传到虚拟机,利用hadoop jar命令来运行

(1)利用Maven打包

  • 打开Maven管理窗口,找到项目的LifeCycle下的package命令

  • 双击package命令,报错,maven插件版本不对

  •  修改pom.xml文件,添加maven插件,记得要刷新maven

  • 再次打包,即可生成MRWordCount-1.0-SNAPSHOT.jar 

(2)将jar包上传到虚拟机

  • MRWordCount-1.0-SNAPSHOT.jar上传到master虚拟机/home目录

 

  • 查看上传的jar包 

(3)运行jar包,查看结果

 

20、创建新词频统计驱动器类

  • 由用户指定输入路径和输出路径,如果用户不指定,那么由程序来设置
  • net.hw.mr包里创建WordCountDriverNew

package net.zyf.mr;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.net.URI;

/**
 * 功能:新词频统计驱动器类
 * 作者:钟云帆
 * 日期:2022年12月16日
 */
public class WordCountDriverNew {
    public static void main(String[] args) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");

        // 获取作业实例
        Job job = Job.getInstance(conf);
        // 设置作业启动类
        job.setJarByClass(WordCountDriverNew.class);

        // 设置Mapper类
        job.setMapperClass(WordCountMapper.class);
        // 设置map任务输出键类型
        job.setMapOutputKeyClass(Text.class);
        // 设置map任务输出值类型
        job.setMapOutputValueClass(IntWritable.class);

        // 设置Reducer类
        job.setReducerClass(WordCountReducer.class);
        // 设置reduce任务输出键类型
        job.setOutputKeyClass(Text.class);
        // 设置reduce任务输出值类型
        job.setOutputValueClass(IntWritable.class);

        // 设置分区数量(reduce任务的数量,结果文件的数量)
        job.setNumReduceTasks(3);

        // 定义uri字符串
        String uri = "hdfs://master:9000";
        // 声明输入目录
        Path inputPath = null;
        // 声明输出目录
        Path outputPath = null;
        // 判断输入参数个数
        if (args.length == 0) {
            // 创建输入目录
            inputPath = new Path(uri + "/wordcount/input");
            // 创建输出目录
            outputPath = new Path(uri + "/wordcount/output");
        } else if (args.length == 2) {
            // 创建输入目录
            inputPath = new Path(uri + args[0]);
            // 创建输出目录
            outputPath = new Path(uri + args[1]);
        } else {
            // 提示用户参数个数不符合要求
            System.out.println("参数个数不符合要求,要么是0个,要么是2个!");
            // 结束应用程序
            return;
        }

        // 获取文件系统
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        // 删除输出目录(第二个参数设置是否递归)
        fs.delete(outputPath, true);

        // 给作业添加输入目录(允许多个)
        FileInputFormat.addInputPath(job, inputPath);
        // 给作业设置输出目录(只能一个)
        FileOutputFormat.setOutputPath(job, outputPath);

        // 等待作业完成
        job.waitForCompletion(true);

        // 输出统计结果
        System.out.println("======统计结果======");
        FileStatus[] fileStatuses = fs.listStatus(outputPath);
        for (int i = 1; i < fileStatuses.length; i++) {
            // 输出结果文件路径
            System.out.println(fileStatuses[i].getPath());
            // 获取文件系统数据字节输入流
            FSDataInputStream in = fs.open(fileStatuses[i].getPath());
            // 将结果文件显示在控制台
            IOUtils.copyBytes(in, System.out, 4096, false);
        }
    }
}

21、重新打包上传虚拟机并执行

  • 重新打包
  •  删除先前的jar包

  • 上传新的单词文件 

  • 上传新的jar包 

  • 执行命令:hadoop jar MRWordCount-1.0-SNAPSHOT.jar net.zyf.mr.WordCountDriverNew,不指定输入路径和输出路径参数 

  • 执行命令:hadoop jar MRWordCount-1.0-SNAPSHOT.jar net.zyf.mr.WordCountDriverNew /winter/input /winter/output,指定输入路径和输出路径参数 

  • 执行命令:hadoop jar MRWordCount-1.0-SNAPSHOT.jar net.zyf.mr.WordCountDriverNew /winter/input,指定输入路径参数,不指定输出路径参数 

22、将三个类合并成一个类完成词频统计

  • net.hw.mr包里创建WordCount

 

package net.zyf.mr;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

import java.io.IOException;
import java.net.URI;

/**
 * 功能:词频统计
 * 作者:钟云帆
 * 日期:2022年12月14日
 */
public class WordCount extends Configured implements Tool {

    public static class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
        @Override
        protected void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            // 获取行内容
            String line = value.toString();
            // 清洗所有英文标点符号(\p——属性[property],P——标点符号[Punctuation])
            line = line.replaceAll("[\\pP]", "");
            // 按空格拆分得到单词数组
            String[] words = line.split(" ");
            // 遍历单词数组,生成输出键值对
            for (int i = 0; i < words.length; i++) {
                context.write(new Text(words[i]), new IntWritable(1));
            }
        }
    }

    public static class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context)
                throws IOException, InterruptedException {
            // 定义输出键出现次数
            int count = 0;
            // 历输出值迭代对象,统计其出现次数
            for (IntWritable value : values) {
                count = count + value.get();
            }
            // 生成键值对输出
            context.write(key, new IntWritable(count));
        }
    }

    @Override
    public int run(String[] strings) throws Exception {
        // 创建配置对象
        Configuration conf = new Configuration();
        // 设置数据节点主机名属性
        conf.set("dfs.client.use.datanode.hostname", "true");

        // 获取作业实例
        Job job = Job.getInstance(conf);
        // 设置作业启动类
        job.setJarByClass(WordCountDriver.class);

        // 设置Mapper类
        job.setMapperClass(WordCountMapper.class);
        // 设置map任务输出键类型
        job.setMapOutputKeyClass(Text.class);
        // 设置map任务输出值类型
        job.setMapOutputValueClass(IntWritable.class);

        // 设置Reducer类
        job.setReducerClass(WordCountReducer.class);
        // 设置reduce任务输出键类型
        job.setOutputKeyClass(Text.class);
        // 设置reduce任务输出值类型
        job.setOutputValueClass(IntWritable.class);

        // 设置分区数量(reduce任务的数量,结果文件的数量)
        job.setNumReduceTasks(3);

        // 定义uri字符串
        String uri = "hdfs://master:9000";
        // 创建输入目录
        Path inputPath = new Path(uri + "/wordcount2/input");
        // 创建输出目录
        Path outputPath = new Path(uri + "/wordcount2/output");

        // 获取文件系统
        FileSystem fs = FileSystem.get(new URI(uri), conf);
        // 删除输出目录(第二个参数设置是否递归)
        fs.delete(outputPath, true);

        // 给作业添加输入目录(允许多个)
        FileInputFormat.addInputPath(job, inputPath);
        // 给作业设置输出目录(只能一个)
        FileOutputFormat.setOutputPath(job, outputPath);

        // 等待作业完成
        boolean res = job.waitForCompletion(true);

        // 输出统计结果
        System.out.println("======统计结果======");
        FileStatus[] fileStatuses = fs.listStatus(outputPath);
        for (int i = 1; i < fileStatuses.length; i++) {
            // 输出结果文件路径
            System.out.println(fileStatuses[i].getPath());
            // 获取文件系统数据字节输入流
            FSDataInputStream in = fs.open(fileStatuses[i].getPath());
            // 将结果文件显示在控制台
            IOUtils.copyBytes(in, System.out, 4096, false);
        }

        if (res) {
            return 0;
        } else {
            return -1;
        }
    }

    public static void main(String[] args) throws Exception {
        int res = ToolRunner.run(new WordCount(), args);
        System.exit(res);
    }
}
  • 上传一个有标点符号的单词文件

  • 运行程序,查看结果 

23、合并分区导致的多个结果文件

  • 采用分区来处理,确实提高了效率,但是现在有多个结果文件,怎么合并它们成为一个最终的一个结果文件呢?
  • 利用hadoop的-getmerge命令来完成:hdfs dfs -getmerge /wordcount/result part-r-final

24、统计不同单词数

利用MR对多个文件进行词频统计,得到的一个或多个结果文件,多个结果文件可以合并成一个最终结果文件,比如part-r-final,然后利用Linux命令统计行数即可。

利用cat -nu命令,带行号显示文件内容

  • 利用wc -l命令,统计文件行数,即不同单词数 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值