大数据技术原理与应用作业二

Play With SanLei

于 2021-09-15 16:01:55 发布

阅读量3k

点赞数

分类专栏：大数据文章标签： hadoop big data 人工智能

本文链接：https://blog.csdn.net/weixin_43644559/article/details/120310633

版权

本文详细介绍了Hadoop与谷歌MapReduce、GFS之间的关系，强调了Hadoop的高可靠性、高效性、可扩展性等特性。还探讨了Hadoop在雅虎、Facebook等公司的应用情况，以及Hadoop生态系统中的关键组件，如HDFS、HBase、MapReduce等的功能。同时，文章涵盖了Hadoop配置中关于JAVA_HOME和fs.default.name的设置，并对比了单机模式和伪分布模式的异同点。

摘要由CSDN通过智能技术生成

大数据技术原理与应用作业二

1. 试述Hadoop和谷歌的MapReduce、GFS之间的关系。

Hadoop最初是由Apache Lucene 项目的创始人Doug Cutting开发的文本搜索库。Hadoop源自2002年的Apache Nutch项目：一个开源的网络搜索引擎并且也是Lucene项目的一部分。在2002年的时候,Nutch项目遇到了棘手的难题，该搜索引擎框架无法扩展到拥有数十亿网页的网络。而就在一年以后的2003年，谷歌公司发布了分布式文件系统GFS方面的论文，可以解决大规模数据存储的问题。于是，在2004年，Nutch项目也模仿GFS开发了自已的分布式文件系统( Nutch Distributed File System, NDFS )，也就是HDFS的前身。

2004年，谷歌公司又发表了另一篇具有深远影响的论文，阐述了MapReduce分布式编程思想。2005年，Nutch开源实现了谷歌的MapReduce。到了2006年2月,Nutch中的NDFS和MapReduce开始独立出来，成为Lucene项目的一个子项目，称为Hadoop,同时Doug Cutting加盟雅虎。2008年1月,Hadoop正式成为Apache顶级项目，Hadoop也逐渐开始被雅虎之外的其他公司使用。