基于MapReduce的Wordcount(本地)

文章详细介绍了Wordcount在MapReduce中的应用,包括Mapper和Reducer类的实现,以及如何在本地运行统计单词数量的程序。Mapper负责拆分文本,Reducer则进行求和操作,最后展示了运行结果。
摘要由CSDN通过智能技术生成

提示:在读大学生狗,写博客纯属笔记,不喜勿喷。


前言

提示:统计单词数量。


提示:以下是本篇文章正文内容,下面案例可供参考

一、Wordcount是什么?

Wordcount 是基于MapReduce的一个实例,是为了解决“统计单词个数”而创建的。

二、实例介绍

1.所用文件

包含单词如下(示例):

hello tom hello allen hello
allen tom mac apple
hello allen apple
hello spark allen hadoop spark

将这些单词,复制粘贴到txt,保存在任意文件夹下。

2.项目结构

在这里插入图片描述

3.代码部分

Mapper类:

package wordcount;


import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;


public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    private Text outK = new Text();
    private IntWritable outV = new IntWritable(1);

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

        
        String line = value.toString();
        String[] words = line.split(" ");

        
        for (String word : words) {
            outK.set(word);
            context.write(outK, outV);
        }
    }
}

Reducer类:

package wordcount;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;


public class WordCountReducer extends Reducer<Text, IntWritable,Text,IntWritable> {
    private IntWritable outV = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

        int sum = 0;
        for (IntWritable value : values) {
            sum += value.get();
        }

        outV.set(sum);

        context.write(key,outV);
    }
}

Driver类:

package wordcount;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCountDriver {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

    	// 1 获取job
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);

        // 2 设置jar包路径
        job.setJarByClass(WordCountDriver.class);

        // 3 关联mapper和reducer
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        // 4 设置map输出的kv类型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);

        // 5 设置最终输出的kV类型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

         // 6 设置输入路径和输出路径
        FileInputFormat.setInputPaths(job, new Path("D:\\data\\wordcount\\input"));
        FileOutputFormat.setOutputPath(job, new Path("D:\\data\\wordcount\\output"));

        // 7 提交job
        boolean result = job.waitForCompletion(true);

        System.exit(result ? 0 : 1);
       
    }
}


4.运行结果

运行成功后,会生成四个文件,打开part-r-0000
单词数量已经统计完成

总结:

以上就是今天要讲的内容,本文仅仅简单介绍了基于MapReduce的Wordcount的实例,仅限本地运行。下一篇将介绍在集群上运行。

好的,下面是一个使用Java语言基于MapReduce计算框架完成wordcount的例子: Mapper类实现: ```java import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; public class WordCountMapper extends Mapper<LongWritable, Text, Text, LongWritable> { // 定义key变量,存储每个单词 private Text key = new Text(); // 定义value变量,存储每个单词的词频 private LongWritable value = new LongWritable(1); public void map(LongWritable k, Text v, Context context) throws IOException, InterruptedException { // 将每一行文本转换成字符串 String line = v.toString(); // 将字符串按照空格切分成单词 String[] words = line.split(" "); // 遍历每个单词,输出<word, 1> for (String word : words) { key.set(word); context.write(key, value); } } } ``` Reducer类实现: ```java import java.io.IOException; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Reducer; public class WordCountReducer extends Reducer<Text, LongWritable, Text, LongWritable> { // 定义key变量,存储每个单词 private Text key = new Text(); // 定义value变量,存储每个单词的总词频 private LongWritable value = new LongWritable(); public void reduce(Text k, Iterable<LongWritable> v, Context context) throws IOException, InterruptedException { // 定义一个计数器,用于统计每个单词的词频 long count = 0; // 遍历每个value,累加每个单词的词频 for (LongWritable val : v) { count += val.get(); } // 将词频累加结果输出为<word, count> key.set(k); value.set(count); context.write(key, value); } } ``` Driver类实现: ```java import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; public class WordCountDriver { public static void main(String[] args) throws Exception { // 创建一个配置对象 Configuration conf = new Configuration(); // 创建一个Job对象 Job job = Job.getInstance(conf, "word count"); // 设置job的主类 job.setJarByClass(WordCountDriver.class); // 设置Mapper类 job.setMapperClass(WordCountMapper.class); // 设置Reducer类 job.setReducerClass(WordCountReducer.class); // 设置Mapper的输出key类型 job.setMapOutputKeyClass(Text.class); // 设置Mapper的输出value类型 job.setMapOutputValueClass(LongWritable.class); // 设置Reducer的输出key类型 job.setOutputKeyClass(Text.class); // 设置Reducer的输出value类型 job.setOutputValueClass(LongWritable.class); // 设置输入路径 FileInputFormat.addInputPath(job, new Path(args[0])); // 设置输出路径 FileOutputFormat.setOutputPath(job, new Path(args[1])); // 等待job完成 System.exit(job.waitForCompletion(true) ? 0 : 1); } } ``` 运行该代码需要在Hadoop集群中进行,可以使用Hadoop单节点伪分布式模式进行测试。您需要创建一个文本文件作为输入,将其上传到HDFS中,并将该文件的HDFS路径作为参数传递给上述Driver的main()函数。输出将保存在另一个HDFS目录中,您可以使用Hadoop命令将其下载到本地进行查看。 希望这个例子可以帮助您理解如何使用Java语言基于MapReduce计算框架完成wordcount
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值