Hadoop基本介绍

最新推荐文章于 2022-05-11 08:33:04 发布

不点儿ld

最新推荐文章于 2022-05-11 08:33:04 发布

阅读量853

点赞数

文章标签： hadoop

本文链接：https://blog.csdn.net/weixin_47655815/article/details/106035494

版权

Hadoop起源于Apache Nutch，2006年成为独立项目，具有高可靠、可扩展、高效、容错及低成本等优势。主要由HDFS、YARN和MapReduce组成。Hadoop有三个发行版本：Apache、Hortonworks和Cloudera，各具特点。HDFS包含NameNode、DataNode和Secondary NameNode；YARN包含ResourceManager、NodeManager和ApplicationMaster。Hadoop支持本地、伪分布式和完全分布式三种运行模式。

摘要由CSDN通过智能技术生成

起源

Hadoop起源于Apache Nutch项目，始于2002年，是Apache Lucene的子项目之一。2004年，Google在“操作系统设计与实现”（Operating System Design and Implementation，OSDI）会议上公开发表了题为MapReduce：Simplified Data Processing on Large Clusters（Mapreduce：简化大规模集群上的数据处理）的论文之后，受到启发的Doug Cutting等人开始尝试实现MapReduce计算框架，并将它与NDFS（Nutch Distributed File System）结合，用以支持Nutch引擎的主要算法。由于NDFS和MapReduce在Nutch引擎中有着良好的应用，所以它们于2006年2月被分离出来，成为一套完整而独立的软件，并被命名为Hadoop。到了2008年年初，hadoop已成为Apache的顶级项目，包含众多子项目，被应用到包括Yahoo在内的很多互联网公司。