1、以下是Hadoop的图文详解
1)、当hadoop运行时,HDFS的DATENODE 与mapreduce 的联系是通过细条的形式联系的,没三秒通信一次当十分钟没有韩慧结果是,hdfs则会认为datanode
是坏的,在nameNode 重点的元数据也会。
2、Secondary namenode 主要是辅助namenode 的,如果namenode 损坏时,则会启动secondary namenode 的运行,
把namename 的上局回复到secondarynamenode 上,避免数据的丢失。
3、HDFS 自诊断机制,会通过心跳的方式或者是块的检测。
HDFS 的分工协作,可以看出namenode 只有一个同事seconfrynamenode 也是有一个,是辅助namenode的,namenode 下面有多个datenode 节点
保存数据。
使用 linux 命令统计 wordcount 的流程:当用户执行hdfs时,hdfs 会把文件转给mapreduce 的jobTracker 来计算,首先会
计算map的值,把每个单词都统计出来,包括重复,然后再进行一次排序,按照图可以看出是按照首字母的顺序排序的,再有reduce
进行统计,进行对重复的单词的个数进行合并,运行完之后会再转给HDFS 文件系统,然后再给用户。
执行的顺序为:首先会加载配置的xml的文件,configuration 去加载文件配置,在源码中有个static 静态的代码块,进行加载,
然后获取FileSystem 系统,可以获取许多文件的信息,详细的可以查看API文档,最后关闭流。
HDFS 文件系统与MapReduce 之间的运算的关系,按照图可以看出,是HDFS的datenode 与MapReduce 的TaskTracker 是相互联系的。
GenericOptionsParser 是一个辅助的类,实现了Tool接口,只要运行run方法即可