1. IDEA 配置
2. Job 类
2.1 Job.waitForCompletion
2.2 Job. submit
submit():总共可分为两大步:第一步是和集群进行连接,第二步是往集群提交作业。
connect() 就是为了与集群进行连接,底层使用了RPC协议,针对本地集群和Yarn集群两个不同的集群,给我们封装了localJobRunner和YARNRunner,两个真正的与集群通信的客户端。
连接后,就可以提交作业了
3. MapTask 类
3.1 整体概述
3.2 准备部分
3.3 工作部分
3.4 InputFormat (TextInputFormat)解析
3.4.1 getSplits 逻辑规划
3.4.2 createRecordReader
3.5 Mapper类
3.6 OutputCollector
3.7 MapOutputBuffer
3.7.1 内存缓冲区初始化
回顾下流程
MapTask在run()方法中就已经把收集器创建好了,并进行了分区,环形缓冲区初始化,在调用write()方法进行写时,底层调用的就是收集器的collect(),往缓冲区里写(有reduceTask的话)。
进入到sortAndSpill():