HDFS
文章平均质量分 85
缘来如此09
度,恒
展开
-
HDFS--Map Reduce框架
一、概述 从前面文章大家已经知道HDFS的应用场景已经实现原理了,但是将文件分布式存储到硬盘只是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce做的事了。Map Reduce并不仅为HDFS服务而是一种通用的大数据分布式数据分析的框架 下面以一个计算海量数据最大值为例:一个银行有上亿储户,银行希望找到存储金额最高的金额是多少,按照传统的计算方式,我们会这样: Long moneys[] ... Long max = 0L; for(int i=0;i<moneys.l原创 2021-08-11 09:25:59 · 589 阅读 · 0 评论 -
HDFS--Secondary NameNode
前言 最近刚接触Hadoop, 一直没有弄明白NameNode和Secondary NameNode的区别和关系。很多人都认为,Secondary NameNode是NameNode的备份,是为了防止NameNode的单点失败的,直到读了这篇文章Secondary Namenode - What it really do?(需翻墙)才发现并不是这样。文章写的很通俗易懂,现将其翻译如下: Secondary NameNode:它究竟有什么作用? 在Hadoop中,有一些命名不好的模块,Secondar.转载 2021-08-08 10:28:14 · 1216 阅读 · 0 评论 -
HDFS-- 副本放置策略
一、概述 之前提到HDFS有很强的容错机制,它通过增加副本的形式,提高容错性。 某一个副本丢失以后,它可以自动恢复,一个文件块从最初的产生到最后的落盘,会经过存储类型策略的选择,在存储类型选择策略中 HDFS 会帮我们先筛选 批符合存储类型要求的存储位置列表 ,通过这些候选列表,我们还需要做进一步的筛选,HDFS 的副本放置策略主要做的事情在于副本的最终存放,位置放得好了,能提高读写性能,否则反而会起到负面的效果 之前文章提到的三副本备份策略就是其中一个副本放置 策略 二、副本放...原创 2021-08-08 09:52:43 · 2102 阅读 · 0 评论 -
HDFS--核心设计详解
一、产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。 二、 设计目标及使用场景 1.存储非常大的文件:这里非常大指的是几百M、G、或者TB级别。实际应用中已有很多集群存储的数据达到PB级别。根据Hadoop官网,Yahoo!的Hadoop集群约有10万颗CPU,运行在4万个机器节点上。更多世界上的Hadoop集...原创 2021-08-05 08:51:31 · 386 阅读 · 0 评论