大数据
X_信仰
向着大神之路进阶的小白
展开
-
HDFS
假设有大小为一个 T 的文本文件,这个文件每行都是一个字符串且每行的字符串不会太大,这个文件中有且只有重复的两行,需求是如何用一台内存大小为 64 M的电脑找出这两个重复行的位置。方案一:利用冒泡排序的思想,从文件中先读出第一行然后然后逐一从文件中读出第二行、第三行 … 与第一行进行比较,如果找到相同行则停止,否则从文件中读取第二行,然后再跟第三行、第四行 … 进行比较,以此类推。方案二:...原创 2019-04-11 11:44:53 · 301 阅读 · 0 评论 -
HA 和 Federation
HA 和 FederationHDFS 1.x 中,由于 NameNode 单点故障和内存受限,在 HDFS 2.x 中,提出了 HA 高可用来解决 NameNode 单点故障和 Federation 联邦机制解决内存受限问题。HAHDFS 2.x 中支持两个 NameNode,一个主节点一备用节点,通过主备 NameNode 解决单点故障,如果主 NameNode 发生故障,则切换到备 ...原创 2019-04-11 11:54:11 · 508 阅读 · 0 评论 -
MapReduce On YARN
MapReduce 运行流程一个 MapReduce 任务可以分为两个阶段,MapTask 和 ReduceTask一个 MapReduce 任务,首先是由 Client 给出任务的 split(切片)清单(2) maptask 进程启动之后,根据给定的数据切片(哪个文件的哪个偏移量范围)范围进行数据处理,主体流程为:A、 利用客户指定的 inputformat 来获取 RecordRe...原创 2019-04-11 17:56:43 · 381 阅读 · 0 评论 -
MapReduce 之 Client 源码分析
在 Client 主要任务之一是计算 job 作业的 splits 切片清单然后在该方法体内的第197行调用 writeSplits() 方法计算切片数量使用新的API,打开该方法的实现类打开父类 FileInputFormat 的 getSplits() 方法/** * Generate the list of files and make them into FileSp...原创 2019-04-19 21:49:43 · 241 阅读 · 0 评论