hadoop计算平均值

最新推荐文章于 2024-05-17 16:48:52 发布

王亚普

最新推荐文章于 2024-05-17 16:48:52 发布

阅读量3.9k

点赞数 1

分类专栏： Java语言文章标签： hadoop 平均值

本文链接：https://blog.csdn.net/yapuge/article/details/24373063

版权

combiner是运行在本地的，reduce是收集全部的，比如一个文件很大1G，比如一个文件很大1G，如果你的集群是5台双核的，如果你的集群是5台双核的，这样这16个块会被分到这10个块里面，相当于要2轮，假设是1、2分给1号机，3、4分给2号机，这样1、2求和完了之后会在1号机上运行一次combiner，3、4完了再2号机上运行一次combiner，所有的combiner运行完了，所有的数据会汇集到reduce上做最终处理。

输入（数据摘自互联网）：

data1：

data2：

程序源代码：

package org.apache.hadoop.examples;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.ap

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

王亚普

关注关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop计算平均值

combiner是运行在本地的，reduce是收集全部的，比如一个文件很大1G，比如一个文件很大1G，如果你的集群是5台双核的，如果你的集群是5台双核的，这样这16个块会被分到这10个块里面，相当于要2轮，假设是1、2分给1号机，3、4分给2号机，这样1、2求和完了之后会在1号机上运行一次combiner，3、4完了再2号机上运行一次combiner，所有的combi...
复制链接

扫一扫