1 Hadoop的简要介绍
Hadoop是Apache基⾦会旗下⼀个开源的分布式存储和分析计算平台,使⽤java语言开发,具有很好的跨平台性,可以运⾏在商⽤(廉价)硬件上,⽤户⽆需了解分布式底层细节,就可以开发分布式程序,充分使⽤集群的⾼速计算和存储。
Apache lucene是⼀个应⽤⼴泛的⽂本搜索系统库。该项⽬的创始⼈道格·卡丁在2002 年带领团队开发该项⽬中的⼦项⽬Apache Nutch,想要从头打造⼀个⽹络搜索引擎系 统,在开发的过程中,发现了两个问题,⼀个是硬件的⾼额资⾦投⼊,另⼀个是存储问 题。
2003年和2004年Google先后发表的《GFS》和《MapReduce》论⽂,给这个团队提供了灵感,并进⾏了实现,于是NDFS(Nutch分布式⽂件系统)和MapReduce相继问世。 2006年2⽉份,开发⼈员将NDFS和MapReduce移出Nutch形成⼀个独⽴的⼦项⽬,命名为Hadoop(据Doug Cutting所说,该名字是借⽤了他的孩⼦给⽑绒玩具取的名字)。
2 Hadoop的发展历史
- 起源于Apache Nutch项⽬(⼀个网页爬取⼯具和搜索引擎系统,后来遇到大数据量的网页存储问题)
- 2003年,⾕歌发表的⼀篇论⽂(描述的是“⾕歌分布式⽂件系统”,简称GFS),给了Apache Nutch项⽬的开发者灵感
- 2004年,Nutch的开发者开始着⼿NDFS(Nutch的分布式⽂件系统) - 2004年,⾕歌⼜发表了⼀篇介绍MapReduce系统的论⽂
- 2005年,Nutch