大数据技术原理与应用作业二

本文详细介绍了Hadoop与谷歌MapReduce、GFS之间的关系,强调了Hadoop的高可靠性、高效性、可扩展性等特性。还探讨了Hadoop在雅虎、Facebook等公司的应用情况,以及Hadoop生态系统中的关键组件,如HDFS、HBase、MapReduce等的功能。同时,文章涵盖了Hadoop配置中关于JAVA_HOME和fs.default.name的设置,并对比了单机模式和伪分布模式的异同点。
摘要由CSDN通过智能技术生成

大数据技术原理与应用作业二

1. 试述Hadoop和谷歌的MapReduce、GFS之间的关系。

​ Hadoop最初是由Apache Lucene 项目的创始人Doug Cutting开发的文本搜索库。Hadoop源自2002年的Apache Nutch项目:一个 开源的网络搜索引擎并且也是Lucene项目的一部分。在2002年的时候,Nutch项目遇到了棘手的难题,该搜索引擎框架无法扩展到拥有数十亿网页的网络。而就在一年以后的2003年,谷歌公司发布了分布式文件系统GFS方面的论文,可以解决大规模数据存储的问题。于是,在2004年,Nutch项目也模仿GFS开发了自已的分布式文件系统( Nutch Distributed File System, NDFS ),也就是HDFS的前身。

​ 2004年,谷歌公司又发表了另一篇具有深远影响的论文,阐述了MapReduce分布式编程思想。2005年,Nutch开源实现了谷歌的MapReduce。到了2006年2月,Nutch中的NDFS和MapReduce开始独立出来,成为Lucene项目的一个子项目,称为Hadoop,同时Doug Cutting加盟雅虎。2008年1月,Hadoop正式成为Apache顶级项目,Hadoop也逐渐开始被雅虎之外的其他公司使用。

2. 试述Hadoop具有哪些特性。

Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值