hadoop
怪鱼校尉
专注大数据开发
展开
-
MapReduce详细工作流程
10、Yarn会启动相应数量的reducetask,到map端拉取数据,reduce会发送拉取线程,到map端拉取数据,拉到的数据会先加载到内存,如果内存不够,则写到磁盘,等所有数据拉取完之后,再进行归并排序。12、归并后的文件会进行分组操作,然后数据以组为单位发送至reduce方法,reduce方法做逻辑判断后,调用outputformat,recordwrite方法将数据以kv形式写到HDFS上。8、产生大量溢写文件,溢写文件达到10个,再次调用merge方法,使用归并排序,形成一个大文件;...原创 2022-08-01 23:27:41 · 1823 阅读 · 0 评论 -
Hadoop简介
Hadoop组成:Hadoop1.x:HDFS(数据存储)、MapReduce(计算+资源调度)Hadoop2.x、Hadoop3.x:HDFS(数据存储)、MapReduce(计算)、Yarn(资源调度)HDFS:Hadoop Distribute File System1、NameNode:管理和存储所有真实数据的元数据(描述数据的数据),如文件名、文件目录结构、文件属性,以及每个文件的块列表和块所在的DataNode等2、DataNode:在本地文件系统存储文件块数据,以及块数据的校验和。原创 2022-02-27 23:25:55 · 1151 阅读 · 0 评论