大数据-hadoop
文章平均质量分 81
今天努力了吗??
上岸985研究生,人工智能方向,后续大数据和AI相关的知识一起分享,欢迎大佬们批评指正!
展开
-
Hadoop的shuffle流程解析
从环形缓存区输出到内存的过程会有分区和排序的流程Reduce是主动从磁盘中去拿数据(远程获取)Shuffle流程(map输出作为输入传给reducer的过程)一、map阶段1、read阶段客户端中输入命令运行jar包,同时将split、job.xml、运行的jar包加载到hdfs中。2、map读取将hdfs中的文件内容读取到内存中去,并通过重写的map方法将内存中的内容按照自己想要的规则读取。通过context.write方法将内容写出,写出的内容已经通过collector.collect原创 2021-03-12 10:17:49 · 548 阅读 · 0 评论 -
2.7.2-Hadoop切片源码分析
输入文件 rain_in/data.txt、data1.txt、data2.txt(62m) 会产生4个切片1、进入job的任务提交方法job.waitForCompletion2、首先检查job的状态,然后进入提交方法submit();3、ensureState确保状态setUseNewAPI使用新的APIConnect()获得链接的方法,从此方法中能够获得本地或是yarn工作的链接(本地或是yarn)进入connect();4、首先进行判断集群cluster是否为null,如果为nu原创 2021-03-12 10:08:13 · 264 阅读 · 3 评论