Chapter2 大数据处理架构Hadoop

2.1 Hadoop简介和版本演变

2.1.1 Hadoop简介

Hadoop是Apache软件基金会旗下开源软件,为用户提供高层接口,为用户提供了底层细节透明的分布式基础架构。
Hadoop是基于java语言开发的,具有很好的跨平台性,但是它支持多种语言,包括C、java、Python等。
Hadoop并不是单一的技术,而是多种大数据解决方案的继承体。

Hadoop的两大核心为:分布式文件系统HDFS、MapReduce。
在这里插入图片描述
这两大核心共同解决了大数据的两大问题:海量数据的分布式存储、海量数据的分布式处理。
在这里插入图片描述
在这里插入图片描述

几乎所有主流厂商都围绕Hadoop提供开发工具、开源软件、商业化工具和技术服务,如Google、Baidu、Microsoft、Alibaba、Facebook等。

Hadoop的标志:
在这里插入图片描述

2.1.2 Hadoop发展史
  1. Hadoop最初是由Apache Lucene项目的创始人Doug Cutting开发的文本搜索库。Hadoop源自始于2002年的Apache Nutch项目,即一个开源的网络搜索引擎。
  2. 在2003年,谷歌发布了分布式文件系统GFS(Google File System)。2004年,Nutch模仿GFS开发了NDFS,也就是HDFS的前身。
  3. 在2004年,谷歌发布了分布式并行框架MapReduce。2005年,Nutch开源实现了谷歌的MapReduce。
  4. 到2006年2月,NDFS和MapReduce开始独立,成为Lucene项目的一个子项目,成为Hadoop。
  5. 在2008年4月,Hadoop打破世界纪录,成为最快排序1TB数据的系统,它采用了一个由910个节点构成的集群进行运算,排序时间只用了209秒。
  6. 在2009年5月,Hadoop更是把1TB的数据排序时间缩短到62秒。Hadoop从此名声大震,迅速发展成为大数据时代最具影响力的开源分布式开发平台,并
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值