MapReduce之wordcount（基本思想与简单编写提交集群执行）

最新推荐文章于 2024-04-26 22:48:32 发布

爱吃奶油蛋糕和果冻

最新推荐文章于 2024-04-26 22:48:32 发布

阅读量468

点赞数

分类专栏： Hadoop学习史文章标签： MapReduce

本文链接：https://blog.csdn.net/xinneya/article/details/102762262

版权

Hadoop学习史专栏收录该内容

20 篇文章 1 订阅

订阅专栏

MapReduce 是一种分布式编程模型，用来解决海量数据计算的问题。程序员使用它可以更关注业务逻辑的实现，而不需要花费大量精力在因分布式上运行而带来的问题。

MapReduce 采用分治法的思想，把一个大的任务切分为很多小的任同时执行（Map 阶段），汇总所有的执行结果（Reduce 阶段）。

用户以 kv 对的形式把数据提交给 map，map 处理完后以 kv 对的形式提交给 reduce，reduce 处理以后以 kv 对的形式输出给用户。

要想使用 MapReduce 必须要启动 dfs 和 yarn 才可以。

dfs 提供输入和输出

yarn 提供执行程序的必要资源

start-dfs.sh:

NameNode+DataNode+SecondaryNamenode

start-yarn.sh:

ResourceManager+NodeManager

在master主机上启动的节点进程：

NameNode+SecondaryNameNode+ResourceManager

在slave机上启动节点：

DataNode+NodeManager

注：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：：

在分布式的系统中,主从设备模式(Master-Slave)模式还是比较常用的,简单的说,主从(Master-Slave)与进程-线程的关系类似,Master只有一台机器作为Master,其他机器作为Slave,这些机器同时运行组成了集群.Master作为任务调度者,给多个Slave分配计算任务,当所有的Slave将任务完成之后,最后由Master汇集结果,这个其实也是MapReduce思想所在.

例如在Hadoop中,HDFS采用了基于Master/Slave主从架构的分布式文件系统，一个HDFS集群包含一个单独的Master节点和多个Slave节点服务器，这里的一个单独的Master节点的含义是HDFS系统中只存在一个逻辑上的Master组件。一个逻辑的Master节点可以包括两台物理主机，即两台Master服务器、多台Slave服务器。一台Master服务器组成单NameNode集群，两台Master服务器组成双NameNode集群，并且同时被多个客户端访问，所有的这些机器通常都是普通的Linux机器，运行着用户级别(user-level)的服务进程.

NameNode 作为 Master 服务，它负责管理文件系统的命名空间和客户端对文件的访问。NameNode会保存文件系统的具体信息，包括文件信息、文件被分割成具体block块的信息、以及每一个block块归属的DataNode的信息。对于整个集群来说，HDFS通过NameNode对用户提供了一个单一的命名空间。DataNode作为slave服务，在集群中可以存在多个。通常每一个DataNode都对应于一个物理节点。DataNode负责管理节点上它们拥有的存储，它将存储划分为多个block块，管理block块信息，同时周期性的将其所有的block块信息发送给NameNode。

wordcount 统计数据中单词出现的次数 ---> hello world

整篇文章按行拆分

key：行首第一个字母在整篇文章中的位置

value：这一行文字

偏移量文字

0 This distribution may

20 include materials developed by third parties.

55 For license and attribution notices for these materials,

注意:map 拆分出每一个单词后以单词作为 key，数字 1 作为 value 输出

有几个单词就输出几组 kv

eg：文字是：hello hello world hello 就输出 hello 1

world 1

hello 1

在 map 的输出到达 reduce 的过程中会有一下操作：

1. 所有 key 相同的 kv 对会发送到同一个 reduce 上

2. key 还是相同的 key，value 合并在一个迭代器

eg：hello 1

hello 1

hello <1, 1, 1>

reduce 遍历 value 迭代器，统计出个数，即我们这个单词的出现次数

在package cn.itcast.centosdvd.mr.wordcount;下

WCMapper.java

package cn.itcast.centosdvd.mr.wordcount;

import java.io.IOException;

import org.apache.commons.lang3.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

//4个泛型中，前两个是指定mapper输入数据的类型，KEYIN是输入的key的类型，VALUEIN是输入的value的类型
//map和reduce的数据输入输出都是以key-value对的形式封装的
//默认情况下，框架传递给我们的mapper输入数据中，key是要处理的文本中一行的起始偏移量，这一行内容作为value
//此处的LongWritable与Text都是mapreduce自己的类型，为了简化在网络中传输添加的附加包，使速度更快
public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

	//mapreduce框架每读一行数据就调用一次该方法
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context)
			throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		
		//具体业务逻辑就写在这个方法中，而且我们业务逻辑要处理的数据已经被框架传递进来，在方法的参数中key-value
		//key是这一行数据的起始偏移量，这一行内容作为value
		
		//将这一行的内容转换为string类型
		String line = value.toString();
		
		//对这一行的文本按特定分隔符切分
		String[] words = StringUtils.split(line, " ");
		
		//遍历这个单词数组输出为KV形式   K:单词       V:1
		for(String word : words) {
			context.write(new Text(word), new LongWritable(1));
		}
	}
	
	
}

WCReducer.java

package cn.itcast.centosdvd.mr.wordcount;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WCReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

	
	//框架在map处理完成之后，讲所有的kv对缓存起来，进行分组，然后传递一个组<key,value{}>，调用一次reduce方法
	//<hello,{1,1,1,1,1.....}>
	@Override
	protected void reduce(Text key, Iterable<LongWritable> values,
			Reducer<Text, LongWritable, Text, LongWritable>.Context context) throws IOException, InterruptedException {
		
		long count=0;
		//遍历value的list，进行累加求和
		for(LongWritable value:values) {
			
			count+=value.get();
		}
		//输出这一个单词的统计结果
		
		context.write(key, new LongWritable(count));
	}
}

WCRunner.java

package cn.itcast.centosdvd.mr.wordcount;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 用来描述一个特定的作业
 * 比如，该作业使用哪个类作为逻辑处理中的map，哪个作为reduce
 * 还可以指定该作业要处理的数据所在的路径
 * 还可以指定该作业输出的结果放到哪个路径
 * 。。。
 * @author 李景欣
 *
 */
public class WCRunner {

	public static void main(String[] args) throws Exception {
		
		Configuration conf = new Configuration();
		Job wcjob = Job.getInstance(conf);
		
		//设置整个job所用的那些类在哪个jar包
		wcjob.setJarByClass(WCRunner.class);
		
		//本job使用的mapper和reducer的类
		wcjob.setMapperClass(WCMapper.class);
		wcjob.setReducerClass(WCReducer.class);
		
		//指定reducer的输出数据kv类型
		wcjob.setOutputKeyClass(Text.class);
		wcjob.setOutputValueClass(LongWritable.class);
		
		//指定mapper的输出数据kv类型
		wcjob.setMapOutputKeyClass(Text.class);
		wcjob.setMapOutputValueClass(LongWritable.class);
		
		//指定要处理的输入数据存放路径
		FileInputFormat.setInputPaths(wcjob, new Path("/wc/srcdata/"));
		
		//指定处理结果的输出数据存放路径
		FileOutputFormat.setOutputPath(wcjob, new Path("/wc/output/"));
		
		//将job提交给集群运行
		wcjob.waitForCompletion(true);
	}
}

以上注意选下图中下边那个新的，上边那个是老版本的

编写完成后将项目导出（项目右键Export选择jar file）成jar包放到f盘并用sftp命令put上传到服务器

vi words.log

启动hdfs和yarn

在hdfs上新建目录并把words.log上传到hdfs

注意此处只建了输入数据存放路径，并没有建立输出数据存放路径，其实不需要建立输出数据存放路径，如果建了反而会报错提示此路径已经存在。

运行：hadoop jar wc.jar cn.itcast.centosdvd.mr.wordcount.WCRunner

此处我的jar包程序报错有问题

报错：Error: java.io.IOException: Initialization of all the collectors failed. Error in last collector was:java.lang.ClassCastException: class com.sun.jersey.core.impl.provider.entity.XMLJAXBElementProvider$Text

原因是我误把import org.apache.hadoop.io.Text;

导成了import com.sun.jersey.core.impl.provider.entity.XMLJAXBElementProvider.Text;

所以我重新更改了代码，并删除之前的文件与output路径（只是删除output，wc还在）重新put wc.jar

重新运行：hadoop jar wc.jar cn.itcast.centosdvd.mr.wordcount.WCRunner

所以让我们来看一下运行结果：

hadoop fs -ls /wc/output

hadoop fs -cat /wc/output/part-r-00000

完成!

爱吃奶油蛋糕和果冻

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MapReduce之wordcount（基本思想与简单编写提交集群执行）

MapReduce 是一种分布式编程模型，用来解决海量数据计算的问题。程序员使用它可以更关注业务逻辑的实现，而不需要花费大量精力在因分布式上运行而带来的问题。MapReduce 采用分治法的思想，把一个大的任务切分为很多小的任同时执行（Map 阶段），汇总所有的执行结果（Reduce 阶段）。用户以 kv 对的形式把数据提交给 map，map 处理完后以 kv 对的形式提交给 ...
复制链接

扫一扫