大数据MapReduce词频统计

1 篇文章 0 订阅
1 篇文章 0 订阅
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;
import java.util.StringTokenizer;

public class wc {
    public static class WCMapper extends Mapper<LongWritable, Text,Text,IntWritable>{
        private final static IntWritable one=new IntWritable(1);
        private Text words=new Text();
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer stringTokenizer = new StringTokenizer(value.toString());
            while (stringTokenizer.hasMoreElements()){
                String word= stringTokenizer.nextToken();
                words.set(word);
                context.write(words,one);
            }

        }
    }
    public static class WCReduce extends Reducer<Text,IntWritable,Text,IntWritable>{
        private IntWritable result=new IntWritable();
        @Override
        protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int sum=0;
            for (IntWritable val:values){
                sum+=val.get();
            }
            result.set(sum);
            context.write(key,result);
        }
    }

    public static void main(String[] args) throws Exception{
        //配置文件
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf,"wordcount");
        job.setJarByClass(wc.class);
        //map端和reduce端
        job.setMapperClass(WCMapper.class);
        job.setReducerClass(WCReduce.class);
        //map端输出的字节码
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        //reduce端输出的字节码
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        //输入文件地址
        FileInputFormat.setInputPaths(job, new Path("E:\\学习\\大三第二学期课程\\大数据架构技术\\wordCount\\word.txt"));
        //输出文件地址
        Path path=new Path("E:\\学习\\大三第二学期课程\\大数据架构技术\\wordCount\\word_out");
        FileSystem fs=FileSystem.get(conf);
        if (fs.exists(path)){
            fs.delete(path,true);
        }
        FileOutputFormat.setOutputPath(job,path);
        job.waitForCompletion(true);
    }
}

MapReduce是一种用于处理大规模数据集的编程模型,它可以将大数据集拆分成许多小块进行分布式处理,然后将结果进行合并。实现MapReduce词频统计可以通过以下步骤来完成: 1. 首先,将数据集划分为多个小块,每个小块被称为一个分片。然后,将每个分片传给多个Mapper进行并行处理。Mapper的任务是将输入的分片按行读取,并将每个行中的单词进行拆分,然后为每个单词生成一个键值对,其中键是单词本身,值设为1。 2. Mapper完成后,将生成的键值对传递给Reducer。Reducer的任务是对相同键的多个值进行合并和计数,然后输出结果。Reducer会接收到多个Mapper产生的键值对,首先对键值对按键进行排序,然后对相同键的多个值进行合并,并计算出该键出现的总次数。 3. 最后,将每个键和对应的计数结果作为输出,得到最终的词频统计结果。 为了实现这个过程,可以使用编程语言如Java来编写Map和Reduce函数。在Map函数中,可以使用字符串的分割函数将行拆分为单词,并为每个单词生成一个键值对。在Reduce函数中,可以使用哈希表来合并相同键的值,并计算出总的出现次数。最后,将结果写入输出文件中。 为了实现分布式计算,可以使用分布式计算框架如Hadoop来管理MapReduce任务的调度和运行。Hadoop可以将输入数据切分为多个分片,并将它们分配给集群中的不同节点进行并行处理。同时,Hadoop还能够自动处理节点故障和数据丢失的情况,保证计算的可靠性和高可用性。 通过以上步骤和工具的组合,就可以实现MapReduce词频统计。这种方法可以有效地处理大规模数据集,并获得准确的词频统计结果。同时,由于分布式计算的优势,可以并行处理多个分片,大大提高计算效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值