大数据技术原理与应用作业二
1. 试述Hadoop和谷歌的MapReduce、GFS之间的关系。
Hadoop最初是由Apache Lucene 项目的创始人Doug Cutting开发的文本搜索库。Hadoop源自2002年的Apache Nutch项目:一个 开源的网络搜索引擎并且也是Lucene项目的一部分。在2002年的时候,Nutch项目遇到了棘手的难题,该搜索引擎框架无法扩展到拥有数十亿网页的网络。而就在一年以后的2003年,谷歌公司发布了分布式文件系统GFS方面的论文,可以解决大规模数据存储的问题。于是,在2004年,Nutch项目也模仿GFS开发了自已的分布式文件系统( Nutch Distributed File System, NDFS ),也就是HDFS的前身。
2004年,谷歌公司又发表了另一篇具有深远影响的论文,阐述了MapReduce分布式编程思想。2005年,Nutch开源实现了谷歌的MapReduce。到了2006年2月,Nutch中的NDFS和MapReduce开始独立出来,成为Lucene项目的一个子项目,称为Hadoop,同时Doug Cutting加盟雅虎。2008年1月,Hadoop正式成为Apache顶级项目,Hadoop也逐渐开始被雅虎之外的其他公司使用。
2. 试述Hadoop具有哪些特性。
Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。