关于hive，mapreduce，hadoop讲解

最新推荐文章于 2024-01-16 15:39:40 发布

长风。

最新推荐文章于 2024-01-16 15:39:40 发布

阅读量289

点赞数

分类专栏： Hadoop 文章标签： hadoop hive mapreduce hadoop讲解大数据讲解

本文链接：https://blog.csdn.net/weixin_43951105/article/details/89489541

版权

mapreduce知识

1.什么是mapreduce?特点？
mapreduce分为map端和reduce端
	map端映射，reduce端归约
	mapreduce是分布式计算框架，用于处理海量数据
	特点：
	易于编程，
	高扩展
	适合海量数据的处理
	有良好的容错性

2.maptask和reducetask的区别？

maptask解析数据通过map方法写入磁盘
reducetask通过复制map端的数据进行归约，写出磁盘

3.hadoop的自带辅助类

tool，toolrunner，configured

4.mapreduce的执行流程？

	1.定义一个数据为300M（存储默认按照块存储，大小128M）
2.300M分为3块，block01，block02，block03，分别为128M，128M，44M.每一个分块对应一个切片：split01，split02，split03.
（块：存储数据，物理上的
	切片：逻辑上的切片
	切片大小默认块大小。）

3.在切片的过程中涉及到文件输入（fileinputformat）
1.获取文件列表
2.获取文件的位置
3.获取分片的位置
4.每一个切片对应一个maptask：	maptask01,maptask02,maptask03，
5.以一个maptask为，切牌你之后执行mao（）方法
 6.map输入数据到环形内存缓冲区，默认的小100M，阈值0.8，达到80溢写

最低0.47元/天解锁文章

长风。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
关于hive，mapreduce，hadoop讲解

mapreduce知识1.什么是mapreduce?特点？mapreduce分为map端和reduce端 map端映射，reduce端归约 mapreduce是分布式计算框架，用于处理海量数据特点：易于编程，高扩展适合海量数据的处理有良好的容错性2.maptask和reducetask的区别？maptask解析数据通过map方法写入磁盘reducetask通过复...
复制链接

扫一扫