![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
mapreduce
yc_hen
为了让明天的我 超越昨天的我,所以今天的我需要努力
展开
-
MAP/REDUCE-map-reduce详解
MapReduce是什么?Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集。这个定义里面有着这些关键词:一是软件框架,二是并行处理,三是可靠且容错,四是大规模集群,五是海量数据集。MapReduce做什么?MapReduce擅...原创 2019-02-11 10:34:55 · 1227 阅读 · 0 评论 -
MAP/REDUCE-shuffle流程简单概述
我简单地将shuffle流程分成以下两部分:map task程序会根据InputFormat将输入文件分割成splits,每个split会作为一个map task的输入,每个map task会有一个内存缓冲区,输入数据经过map阶段处理后的中间结果会写入内存缓冲区(环形缓冲区,这个暂时就不深入了),并且决定数据写入到哪个partitioner,当写入的数据到达内存缓冲区的的阀值(默认是0.8...原创 2019-02-11 11:12:26 · 439 阅读 · 0 评论 -
HIVE-Hive的简单概述
什么是Hive?Hive是一种构建数据仓库的工具。里面有表的概念。在Mysql里从表中插入的数据,会放在磁盘上。再打开这个表的时候,会把磁盘上的数据规整到一个表格里显示。但是计算机不会自己规整成表格,所以在Hive中需要一份元数据这份元数据包括:元数据(行的分隔符(这样在映射成表的时候知道能映射成几行)字段分隔符(这样在映射成表的时候知道能映射成几列)字段的类型字段的名称)...原创 2019-02-17 10:19:11 · 278 阅读 · 0 评论