hadoop基础【Shuffle全部流程、OutputFormat输出、ReduceJoin案例实操】

最新推荐文章于 2024-05-02 19:56:06 发布

OneTenTwo76

最新推荐文章于 2024-05-02 19:56:06 发布

阅读量1.1k

点赞数

分类专栏：大数据开发文章标签： hadoop big data java

本文链接：https://blog.csdn.net/weixin_43923463/article/details/123506275

版权

一、回顾

Shuffle机制：

一个mapper将数据写入到环形缓冲区（在堆内部的一块内存，默认100M），写入数据时一边写元信息（数据在环形缓冲区中的索引，分区号等），一边写数据本身（左边写元数据，右边写数据），写到80%认为环形缓冲区已满，出现溢写（将数据写到磁盘上），当这80%数据写到磁盘的过程中，需要分区和排序，这两件事情并不是一瞬间就完成，map在此时依然向环形缓冲区中写数据，如果map在写20%数据时，80%数据没有处理完，map会等待溢写完成后继续将数据写入环形缓冲区。

在环形缓冲区中的数据都是序列化好的数据，在区内二次排序（先按照分区号排序，后按照块大小排序）需要拿到两个数据的值，也就是将两个数据反序列化，compare进行比较，如果需要交换，不会交换数据本身，而是交换两个数据的索引，因为数据的长度不确定，索引的长度确定，之后按照索引的顺序写出到磁盘，这时溢写出的数据就是一份排序好的文件。

最终会有多个溢写文件，将多个文件合并成一个文件（归并），如果采用分区，则按照分区进行归并，各区归并各区，经过combiner的合并，压缩后将数据写入到磁盘上，文件分区且区内有序，这就是整个MapTask的过程。

每个Reduce从MapTask中下载自己对应分区的数据，会将数据一边归并一边下载到内存缓冲中，如果缓冲不够了，就溢写到磁盘上。可以根据集群的性能，自定义调节并行下载的数量，全部归并之后按照相同的key进行分组，此为Shuffle的全部流程。

RM，NM不负责具体任务的运行，如果有一个job被提交，RM在NM中启动一个AM来进行管理。RM，NM只负责监控集群的全部资源，NM会将自己的资源以容器的形式发送出去。

各阶段完成的任务：

InputFormat：文件变成KV

Shuffle：整理数据

OutputFormat：KV变成文件，接受reduce输出的数据，这些数据要以什么样的形式持久化，要以什么样的形式使用这份数据，都是由OF负责。

OutputFormat数据输出：

默认使用的是TextOutputFormat，它将每条记录写成文本行，每行包含key的toString，制表符，value的toString三部分。如果不行使用默认的，也可以自定义OF。

需求：将log.txt文件中包含baidu的网站输出到baidu.log，不包含的输入到other.log。

public class MyOutputFormat extends FileOutputFormat<LongWritable, Text> {

    /**
     * 返回一个处理数据的Record Writer
     * @param taskAttemptContext
     * @return
     * @throws IOException
     * @throws InterruptedException
     */
    @Override
    public RecordWriter<LongWritable, Text> getRecordWriter(TaskAttemptContex

最低0.47元/天解锁文章

OneTenTwo76

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
hadoop基础【Shuffle全部流程、OutputFormat输出、ReduceJoin案例实操】

一、回顾Shuffle机制：一个mapper将数据写入到环形缓冲区（在堆内部的一块内存，默认100M），写入数据时一边写元信息（数据在环形缓冲区中的索引，分区号等），一边写数据本身（左边写元数据，右边写数据），写到80%认为环形缓冲区已满，出现溢写（将数据写到磁盘上），当这80%数据写到磁盘的过程中，需要分区和排序，这两件事情并不是一瞬间就完成，map在此时依然向环形缓冲区中写数据，如果map在写20%数据时，80%数据没有处理完，map会等待溢写完成后继续将数据写入...
复制链接

扫一扫