0- 如何进入指定版本的官方文档
hadoop.apache,Hadoop的官网规划得一般,进入官网点documentation 版本只有4个,如图1,而如何找到你想看到的版本呢?(latest 是3.3.0,stable是3.2.2 )比如3.1.3的话,你随便点进去之后,然后修改网址到docs,然后就可以选择了。
伸手党: https://hadoop.apache.org/docs/ 直接进入这个网址进行选择。
为什么选择hadoop3.1.3
首先它发布比较久,是2019-9-12号最后发布完善版本的,所以比较成熟。它相比第二代,增加了许多新特性。同时它对于实际生产环境,加强了高可用。
Apache Hadoop 3.1.3 incorporates a number of significant enhancements over the previous major release line (hadoop-2.x).
This release is generally available (GA), meaning that it represents a point of API stability and quality that we consider production-ready.
hadoop是什么
源自hadoop官网的介绍.
总结来说: hadoop软件库是一个可靠的、可扩展的、分布式计算的架构。它旨在使用跨集群方式对大型数据集进行分布式处理和计算,因为每台机器都提供本地计算和存储,所以它从应用层上来说,有很强的处理故障的能力。
hadoop生态圈
狭义的hadoop仅包括 HDFS(存储框架),YARN(资源调度框架),MR(计算引擎)
广义的hadoop,由于狭义的hadoop体系的一些缺点(如计算较慢,存储耗费磁盘等),进而包含了较为完善的一些其他框架,这些框架是更好地为hadoop大数据集群服务的。
所以学习Apachehadoop软件库的重点,我想这些点是必不可少的:如何规划集群(与业务有关),如何进行配置(与优化和运行相关),而了解这些,它们的运作流程以及如何操作它们也是必须要了解的。