使用Java编写第一个MapReduce程序

最新推荐文章于 2024-07-26 02:53:26 发布

NickZxing

最新推荐文章于 2024-07-26 02:53:26 发布

阅读量2.7k

点赞数 8

分类专栏： hadoop 文章标签： Java MapReduce MR WordCount Hadoop

本文链接：https://blog.csdn.net/weixin_45355999/article/details/97931901

版权

hadoop 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

使用Java编写第一个MapReduce程序

演示目标
演示环境
搭建MR工程
部署MR工程
- 上传jar包到服务器
- 运行jar包

演示目标

编写一个MapReduce，用于计算文章中所有词语的出现次数（WordCount）。

演示环境

基于Hadoop2.6.5；
完整环境请参考以下两篇博客：
- 从0开始搭建Hadoop2.x高可用集群（HDFS篇）
- 从0开始搭建Hadoop2.x高可用集群（YARN篇）
上传MR计算所用的文章到HDFS中；

搭建MR工程

使用 IDEA新建一个Maven工程

配置pom.xml

<properties>
    <hadoop.version>2.6.5</hadoop.version>
</properties>

<dependencies>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-hdfs</artifactId>
      <version>${hadoop.version}</version>
      <exclusions>
        <exclusion>
          <groupId>org.slf4j</groupId>
          <artifactId>slf4j-log4j12</artifactId>
        </exclusion>
        <exclusion>
          <groupId>log4j</groupId>
          <artifactId>log4j</artifactId>
        </exclusion>
        <exclusion>
          <groupId>javax.servlet</groupId>
          <artifactId>servlet-api</artifactId>
        </exclusion>
      </exclusions>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-common</artifactId>
      <version>${hadoop.version}</version>
      <exclusions>
        <exclusion>
          <groupId>org.slf4j</groupId>
          <artifactId>slf4j-log4j12</artifactId>
        </exclusion>
        <exclusion>
          <groupId>log4j</groupId>
          <artifactId>log4j</artifactId>
        </exclusion>
        <exclusion>
          <groupId>javax.servlet</groupId>
          <artifactId>servlet-api</artifactId>
        </exclusion>
      </exclusions>
    </dependency>
    <dependency>
      <groupId>org.apache.hadoop</groupId>
      <artifactId>hadoop-client</artifactId>
      <version>${hadoop.version}</version>
      <exclusions>
        <exclusion>
          <groupId>org.slf4j</groupId>
          <artifactId>slf4j-log4j12</artifactId>
        </exclusion>
        <exclusion>
          <groupId>log4j</groupId>
          <artifactId>log4j</artifactId>
        </exclusion>
        <exclusion>
          <groupId>javax.servlet</groupId>
          <artifactId>servlet-api</artifactId>
        </exclusion>
      </exclusions>
    </dependency>
  </dependencies>

编写WordCountMapper.java

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.util.StringUtils;

import java.io.IOException;

/**
 * Description ...
 *
 * @author NickZxing
 * @date 2019/7/29 17:36
 */
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] strArray = StringUtils.split(value.toString(), ' ');

        for (String str : strArray) {
            context.write(new Text(str), new IntWritable(1));
        }
    }
}

编写WordCountReducer.java

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;

/**
 * Description ...
 *
 * @author NickZxing
 * @date 2019/7/29 17:56
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int count = 0;
        for (IntWritable i : values) {
            count += i.get();
        }
        context.write(key, new IntWritable(count));
    }
}

编写启动类Startup.java

import nick.hadoop.mapper.WordCountMapper;
import nick.hadoop.reducer.WordCountReducer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * Description ...
 *
 * @author NickZxing
 * @date 2019/7/30 9:22
 */
public class Startup {

    public static void main(String[] args) {
        Configuration configuration = new Configuration();
        try {
            FileSystem fileSystem = FileSystem.get(configuration);

            Job job = Job.getInstance(configuration);
            job.setJarByClass(Startup.class);
            job.setJobName("WordCount");
            job.setMapperClass(WordCountMapper.class);
            job.setReducerClass(WordCountReducer.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(IntWritable.class);

            FileInputFormat.addInputPath(job, new Path("/input"));

            Path outputPath = new Path("/output");

            if (fileSystem.exists(outputPath))
                fileSystem.delete(outputPath, true);

            FileOutputFormat.setOutputPath(job, outputPath);

            if (job.waitForCompletion(true))
                System.out.printf("Job执行成功");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}