Hadoop 键值对的mapreduce过程剖析

Hadoop的MapReduce框架用于并行处理大数据,作业将输入数据切分成块并由map任务处理。map输出经过排序后输入reduce任务。MapReduce程序通过键值对操作数据,InputFormat接口定义文件读取,RecordReader处理输入记录,Mapper转换为list(key2, value2)。Combiner可本地聚合减少输出,Partitioner决定reducer分配,Reducer生成最终的(key3, value3)。OutputFormat接口则定义结果输出格式。" 112812835,9615141,深大数据库期末考试总结,"['数据库', 'SQL', '数据库设计', '数据库系统', '数据库理论']
摘要由CSDN通过智能技术生成

         Hadoop的Mapreduce是一个分布并行处理大数据的程序框架,一个Map/Reduce 作业(job) 通常会把输入的数据集切分为若干独立的数据块,由 map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序, 然后把结果输入给reduce任务。通常作业的输入和输出都会被存储在文件系统中。

            MapReduce程序是通过键值对来操作数据的,其单个输入输出形式如下:

                              map: key1,value1 ----> list(key2,value2)

                              redu

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值