本地运行模式将给mapreduce程序编写与调试带来极大遍历,不然还要打包、上传、数据准备到hdfs等多步骤,很是耗时。这里的本地是程序在本地运行,同时输入数据和输入数据也是在本地。同时还可以进行断点debug。
一、基础环境配置
要在本地运行,需要配置windows所需的运行库,步骤如下:
1、下载解压hadoop-common-2.6.0-bin-master
我的路径是:D:\installs\hadoop-common-2.6.0-bin-master
下载链接:https://github.com/steveloughran/winutils
2、将路径配置到环境变量
3、将bin添加到Path
4、将bin中的hadoop.dll复制到C:\Windows\System32
二、代码及数据
Mapper
package com.bigdata.train.practice.wordcount;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;
/**
* @ Author:
* @ Description:
* @ Date:17:57 2019/6/10
*/
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
String[] words = value.t