分布式
yixiu00001
开心快乐是生活的真谛!
展开
-
mapreduce
MapReduce是处理/产生海量数据集的编程模型。,通过map()函数处理key-value对,产生中间key-value对,使用reduce()函数合并相同key的中间key/value中的value。 大数据量处理中的几种情况可使用MapReduece来解决: (1)URL访问频率统计,map函数处理请求和应答(URL,1)的log,reduce函数把具有相同URL的值合并,输出格式...原创 2011-12-24 10:45:56 · 62 阅读 · 0 评论 -
hadoop原理
1.map-reduce map将输入数据打散,并对其做简单处理,输出。 在hadoop中先进行一个叫做shuffle的过程对中间数据排序,然后由reduce把中间数据合并起来,然后将结果输出。 map任务读入切分后的大规模数据、处理->shuffle对数据排序->reduce进行最后的数据处理。 mapReduce适用于超大规模数据(100TB数量级)且各数据之间相关性较低...原创 2013-02-18 12:33:43 · 52 阅读 · 0 评论