前言
回答Hadoop是什么,发展历史,它的优势,和它的基本组成。对于算法工程师而言,并不需要弄清楚源代码部分,最重要的是知道是什么,怎么用很重要,因为我们的侧重点还是在算法上面
Hadoop是什么
(1)Apache基金会所开发的分布式系统基础框架
(2)主要解决海量数据的存储和海量数据的分析计算
发展历史
Hadoop作者是Doug Cutting,名字来源是它儿子的玩具大象的名字,logo就是大象
Hadoop 优势
(1)高可靠性:Hadoop底层维护多个数据副本,如果计算单元或存储出现故障,不会导致数据丢失
(2)高扩展性:第一层含义是扩展性;第二层是方便扩展,即不需要停掉当前集群即可完成扩展
(3)高效并行性:在MR思想下,集群内部各个节点是并行工作的,效率高
(4)高容错性:能够自动将失败的人去重新分配
Hadoop组成
由MR计算引擎,HDFS存储引擎,Yarn资源调度引擎以及一些辅助工具组成