2.1 Hadoop简介和版本演变
2.1.1 Hadoop简介
Hadoop是Apache软件基金会旗下开源软件,为用户提供高层接口,为用户提供了底层细节透明的分布式基础架构。
Hadoop是基于java语言开发的,具有很好的跨平台性,但是它支持多种语言,包括C、java、Python等。
Hadoop并不是单一的技术,而是多种大数据解决方案的继承体。
Hadoop的两大核心为:分布式文件系统HDFS、MapReduce。
这两大核心共同解决了大数据的两大问题:海量数据的分布式存储、海量数据的分布式处理。
几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如Google、Baidu、Microsoft、Alibaba、Facebook等。
Hadoop的标志:
2.1.2 Hadoop发展史
- Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库。Hadoop源自始于2002年的Apache Nutch项目,即一个开源的网络搜索引擎。
- 在2003年,谷歌发布了分布式文件系统GFS(Google File System)。2004年,Nutch模仿GFS开发了NDFS,也就是HDFS的前身。
- 在2004年,谷歌发布了分布式并行框架MapReduce。2005年,Nutch开源实现了谷歌的MapReduce。
- 到2006年2月,NDFS和MapReduce开始独立,成为Lucene项目的一个子项目,成为Hadoop。
- 在2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统,它采用了一个由910个节点构成的集群进行运算,排序时间只用了209秒。
- 在2009年5月,Hadoop更是把1TB的数据排序时间缩短到62秒。Hadoop从此名声大震,迅速发展成为大数据时代最具影响力的开源分布式开发平台,并