MR InputFormat 初解

最新推荐文章于 2023-12-30 16:06:11 发布

shark.zyq

最新推荐文章于 2023-12-30 16:06:11 发布

阅读量992

点赞数 1

分类专栏： MapReduce

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yueqian_zhu/article/details/37884401

版权

MapReduce 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

包含的方法：

InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;

RecordReader<K, V> getRecordReader(InputSplit split,
JobConf job,
Reporter reporter) throws IOException;

作业被提交到Jobclient之前，Client会调用作业InputFormat中的getSplits函数，并将得到的InputSplit序列化到文件中。这样，当作业提交到JobTracker端对作业初始化时，可直接读取该文件，解析出inputSplit，并创建map task。

getRecordReader对输入的inputSplit解析成若干个k/v对，并迭代获取k/v对调用map()函数处理。

以基于文件的inputFormat为例，基类FileInputFormat提供getSplits函数，派生类实现getRecodReader。

getSplits：

1、文件切分:

minsize: 配置参数mapred.min.split.size

maxsize:配置参数mapred.max.split.size

blocksize:hdfs中的块大小

最终确定splitsize = max{minsize,min{maxsize,blocksize}}

如果按设计的块大小，将一条记录切分，导致数据不完整如何处理？请继续看下面介绍。。。

2、host选择:

InputSplit只记录了分片的元数据信息，比如<所在文件、起始位置、长度、host列表>

hdfs上的文件以block为单位存放，可能遍布整个hadoop集群，故确定host列表不可能实现完全的本地性。

三个等级：本节点、同机架、不同机架

考虑到任务调度的效率，通常按照rack包含的数据量排序,再在rack内对node排序，最后取前N个node的host作为InputSplit的host列表，N为block副本数。在调度的时候，只需要将task调度给位于host列表中的节点即可。为了实现本地性，应尽量使inputSplit大小与block大小相同。

getRecordReader:

为了识别一条完整的记录，记录之间应该添加一些同步标示，如TextInputFormat，应添加换行符。

为了解决上述一条记录被切分的情况，RecordReader规定每个InputSplit的第一条不完整记录划给前一个InputSplit处理。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

shark.zyq CSDN认证博客专家 CSDN认证企业博客

码龄10年

80: 原创

13万+: 周排名

8万+: 总排名

12万+: 访问

: 等级

2063: 积分

42: 粉丝

46: 获赞

8: 评论

32: 收藏

私信

关注

热门文章

分类专栏

最新评论

Leader/Follower 领导者/跟随者线程模型
weixin_41860457: 我是一个初学者，可以麻烦楼主放下实例链接吗？
Spring中的Mybatis基础
九月茅回复 shark.zyq: 如果可以配置就好了，可以指定具体的数据源，能配置不同的数据源吗？
Spring中的Mybatis基础
shark.zyq 回复九月茅: 可以啊，比较有名的有DBCP,C3P0,Druid。Mybatis3自身也带连接池，指定datasource的type属性为POOLED即可使用。
Spring中的Mybatis基础
九月茅: 里面可以配置数据库连接池吗？
SparkSQL 概述
JCJC错别字检测-田春峰: 希望下篇，加一点 SparkSql 在集群上的应用。推荐到首页。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。