大数据组件----MapReduce

最新推荐文章于 2024-04-10 10:05:25 发布

laufing

最新推荐文章于 2024-04-10 10:05:25 发布

阅读量216

点赞数 1

分类专栏：大数据技术文章标签：大数据 mapreduce

本文链接：https://blog.csdn.net/weixin_45228198/article/details/118965270

版权

大数据技术专栏收录该内容

15 篇文章 0 订阅

订阅专栏

MapReduce

hadoop提供的，用于大数据集(>1TB)分布式并行计算的框架
计算分为两个阶段：
Map，映射阶段
Reduce，规约阶段

MapReduce编程模型

ResourceManager，资源管理
NodeManager，节点管理
在这里插入图片描述
map，逐行映射（一行一行的处理）

MapReduce 编程实现

安装python连接操作的API

sudo pip3 install mrjob  #python API

2.重写mapper、reducer方法 test.py

from mrjob.job import MRJob
class Count(MRJob):

	def mapper(self,key,value):
		#key,offset per line head
		#value,content of per line
		for word in value.split():
			yield word,1
	#shuffle & sort
	#
	def reducer(self,key,values):
		yield key,sum(values)

if __name__ == "__main__":
	Count.run()

在这里插入图片描述
3. 本地模式运行

python3 test.py -r local /home/lauf/words.txt

此时key 未排序

hadoop模式

python3 test.py -r hadoop /home/lauf/words.txt

重点知识

理解mapreduce 的原理，了解代码

上一篇：hdfs----分布式文件系统下一篇：大数据技术----Hive

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

laufing

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
大数据组件----MapReduce

MapReducehadoop提供的，用于大数据集(>1TB)分布式并行计算的框架计算分为两个阶段：Map，映射阶段Reduce，规约阶段MapReduce编程模型ResourceManager，资源管理NodeManager，节点管理
复制链接

扫一扫