MapReduce之wordcount(基本思想与简单编写提交集群执行)

MapReduce 是一种分布式编程模型,用来解决海量数据计算的问题。程序员使用它可以更关注业务逻辑的实现,而不需要花费大量精力在因分布式上运行而带来的问题。

 

MapReduce 采用分治法的思想,把一个大的任务切分为很多小的任同时执行(Map 阶段),汇总所有的执行结果(Reduce 阶段)。

 

用户以 kv 对的形式把数据提交给 map,map 处理完后以 kv 对的形式提交给 reduce,reduce 处理以后以 kv 对的形式输出给用户。

要想使用 MapReduce 必须要启动 dfs 和 yarn 才可以

 

dfs 提供输入和输出

yarn 提供执行程序的必要资源

start-dfs.sh:

NameNode+DataNode+SecondaryNamenode

start-yarn.sh:

ResourceManager+NodeManager

在master主机上启动的节点进程:

NameNode+SecondaryNameNode+ResourceManager

在slave机上启动节点:

DataNode+NodeManager

 

注:::::::::::::::::::::::::::::::::::::::::::::::::::

在分布式的系统中,主从设备模式(Master-Slave)模式还是比较常用的,简单的说,主从(Master-Slave)与进程-线程的关系类似,Master只有一台机器作为Master,其他机器作为Slave,这些机器同时运行组成了集群.Master作为任务调度者,给多个Slave分配计算任务,当所有的Slave将任务完成之后,最后由Master汇集结果,这个其实也是MapReduce思想所在.

例如在Hadoop中,HDFS采用了基于Master/Slave主从架构的分布式文件系统,一个HDFS集群包含一个单独的Master节点和多个Slave节点服务器,这里的一个单独的Master节点的含义是HDFS系统中只存在一个逻辑上的Master组件。一个逻辑的Master节点可以包括两台物理主机,即两台Master服务器、多台Slave服务器。一台Master服务器组成单NameNode集群,两台Master服务器组成双NameNode集群,并且同时被多个客户端访问,所有的这些机器通常都是普通的Linux机器,运行着用户级别(user-level)的服务进程.

NameNode 作为 Master 服务,它负责管理文件系统的命名空间和客户端对文件的访问。NameNode会保存文件系统的具体信息,包括文件信息、文件被分割成具体block块的信息、以及每一个block块归属的DataNode的信息。对于整个集群来说,HDFS通过NameNode对用户提供了一个单一的命名空间。DataNode作为slave服务,在集群中可以存在多个。通常每一个DataNode都对应于一个物理节点。DataNode负责管理节点上它们拥有的存储,它将存储划分为多个block块,管理block块信息,同时周期性的将其所有的block块信息发送给NameNode。

 

wordcount   统计数据中单词出现的次数 ---> hello world

 

   整篇文章按行拆分

   key:  行首第一个字母在整篇文章中的位置

   value:这一行文字

 

   偏移量    文字

   0          This distribution may

   20         include materials developed by third parties. 

   55         For license and attribution notices for these materials,

 

注意:map 拆分出每一个单词后以单词作为 key,数字 1 作为 value 输出

       有几个单词就输出几组 kv

       eg:文字是:hello hello world hello 就输出 hello 1

                                                                           world 1

                                                                            hello 1

                                                                            hello 1

   在 map 的输出到达 reduce 的过程中会有一下操作:

        1. 所有 key 相同的 kv 对会发送到同一个 reduce 上

        2. key 还是相同的 key,value 合并在一个迭代器

 

        eg:hello 1

               hello 1

               hello 1

               hello <1, 1, 1>

reduce 遍历 value 迭代器,统计出个数,即我们这个单词的出现次数

 

 

在package cn.itcast.centosdvd.mr.wordcount;下

WCMapper.java

package cn.itcast.centosdvd.mr.wordcount;

import java.io.IOException;

import org.apache.commons.lang3.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

//4个泛型中,前两个是指定mapper输入数据的类型,KEYIN是输入的key的类型,VALUEIN是输入的value的类型
//map和reduce的数据输入输出都是以key-value对的形式封装的
//默认情况下,框架传递给我们的mapper输入数据中,key是要处理的文本中一行的起始偏移量,这一行内容作为value
//此处的LongWritable与Text都是mapreduce自己的类型,为了简化在网络中传输添加的附加包,使速度更快
public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

	//mapreduce框架每读一行数据就调用一次该方法
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, LongWritable>.Context context)
			throws IOException, InterruptedException {
		// TODO Auto-generated method stub
		
		//具体业务逻辑就写在这个方法中,而且我们业务逻辑要处理的数据已经被框架传递进来,在方法的参数中key-value
		//key是这一行数据的起始偏移量,这一行内容作为value
		
		//将这一行的内容转换为string类型
		String line = value.toString();
		
		//对这一行的文本按特定分隔符切分
		String[] words = StringUtils.split(line, " ");
		
		//遍历这个单词数组输出为KV形式   K:单词       V:1
		for(String word : words) {
			context.write(new Text(word), new LongWritable(1));
		}
	}
	
	
}

WCReducer.java

package cn.itcast.centosdvd.mr.wordcount;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WCReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

	
	//框架在map处理完成之后,讲所有的kv对缓存起来,进行分组,然后传递一个组<key,value{}>,调用一次reduce方法
	//<hello,{1,1,1,1,1.....}>
	@Override
	protected void reduce(Text key, Iterable<LongWritable> values,
			Reducer<Text, LongWritable, Text, LongWritable>.Context context) throws IOException, InterruptedException {
		
		long count=0;
		//遍历value的list,进行累加求和
		for(LongWritable value:values) {
			
			count+=value.get();
		}
		//输出这一个单词的统计结果
		
		context.write(key, new LongWritable(count));
	}
}

WCRunner.java

package cn.itcast.centosdvd.mr.wordcount;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 用来描述一个特定的作业
 * 比如,该作业使用哪个类作为逻辑处理中的map,哪个作为reduce
 * 还可以指定该作业要处理的数据所在的路径
 * 还可以指定该作业输出的结果放到哪个路径
 * 。。。
 * @author 李景欣
 *
 */
public class WCRunner {

	public static void main(String[] args) throws Exception {
		
		Configuration conf = new Configuration();
		Job wcjob = Job.getInstance(conf);
		
		//设置整个job所用的那些类在哪个jar包
		wcjob.setJarByClass(WCRunner.class);
		
		//本job使用的mapper和reducer的类
		wcjob.setMapperClass(WCMapper.class);
		wcjob.setReducerClass(WCReducer.class);
		
		//指定reducer的输出数据kv类型
		wcjob.setOutputKeyClass(Text.class);
		wcjob.setOutputValueClass(LongWritable.class);
		
		//指定mapper的输出数据kv类型
		wcjob.setMapOutputKeyClass(Text.class);
		wcjob.setMapOutputValueClass(LongWritable.class);
		
		//指定要处理的输入数据存放路径
		FileInputFormat.setInputPaths(wcjob, new Path("/wc/srcdata/"));
		
		//指定处理结果的输出数据存放路径
		FileOutputFormat.setOutputPath(wcjob, new Path("/wc/output/"));
		
		//将job提交给集群运行
		wcjob.waitForCompletion(true);
	}
}

 

以上注意选下图中下边那个新的,上边那个是老版本的

 

编写完成后将项目导出(项目右键Export选择jar file)成jar包放到f盘并用sftp命令put上传到服务器

vi words.log

启动hdfs和yarn

在hdfs上新建目录并把words.log上传到hdfs

注意此处只建了输入数据存放路径,并没有建立输出数据存放路径,其实不需要建立输出数据存放路径,如果建了反而会报错提示此路径已经存在。

运行:hadoop jar wc.jar cn.itcast.centosdvd.mr.wordcount.WCRunner

此处我的jar包程序报错有问题

报错:Error: java.io.IOException: Initialization of all the collectors failed. Error in last collector was:java.lang.ClassCastException: class com.sun.jersey.core.impl.provider.entity.XMLJAXBElementProvider$Text

原因是我误把import org.apache.hadoop.io.Text;

导成了import com.sun.jersey.core.impl.provider.entity.XMLJAXBElementProvider.Text;

所以我重新更改了代码,并删除之前的文件与output路径(只是删除output,wc还在)重新put   wc.jar

重新运行:hadoop jar wc.jar cn.itcast.centosdvd.mr.wordcount.WCRunner

所以让我们来看一下运行结果:

hadoop fs -ls /wc/output

hadoop fs -cat /wc/output/part-r-00000

完成!

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值