简单梳理大数据编年史

最新推荐文章于 2023-02-26 15:34:09 发布

忘川茶社

最新推荐文章于 2023-02-26 15:34:09 发布

阅读量921

点赞数

分类专栏：大数据 hadoop 文章标签：大数据 hadoop

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44538225/article/details/122339914

版权

大数据同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

•2002年10月，Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。

•2003年10月，Google发表Google File System论文**。**

•2004年7月，Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能，即后来HDFS的前身。

•2004年10月，Google发表了MapReduce论文。

•2005年2月，Mike Cafarella在Nutch中实现了MapReduce的最初版本。

•2005年12月，开源搜索项目Nutch移植到新框架，使用MapReduce和NDFS(Nutch Distributed File System )来运行，在20个节点稳定运行。

•2006年1月，Doug Cutting加入雅虎，Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。

•2006年2月，Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。

•2006年2月，Yahoo!的网格计算团队采用Hadoop。

•2006年3月，Yahoo!建设了第一个Hadoop集群用于开发。

•2006年4月，第一个Apache Hadoop发布。

•2006年4月，在188个节点上（每个节点10GB）运行排序测试集需要47.9个小时。

•2006年5月，Yahoo!建立了一个300个节点的Hadoop研究集群。

•2006年5月，在500个节点上运行排序测试集需要42个小时（硬件配置比4月的更好）。

•2006年11月，研究集群增加到600个节点。

•2006年11月，Google发表了Bigtable论文，这最终激发了HBase的创建。

•2006年12月，排序测试集在20个节点上运行1.8个小时，100个节点上运行3.3小时，500个节点上运行5.2小时，900个节点上运行7.8个小时。

•2006年12月，排序测试集在20个节点上运行1.8个小时，100个节点上运行3.3小时，500个节点上运行5.2小时，900个节点上运行7.8个小时。

•2007年1月，研究集群增加到900个节点。

•2007年4月，研究集群增加到两个1000个节点的集群。

•2007年10月，第一个Hadoop用户组会议召开，社区贡献开始急剧上升。

•2007年，百度开始使用Hadoop做离线处理。

•2007年，中国移动开始在“大云”研究中使用Hadoop技术。

•2008年，淘宝开始投入研究基于Hadoop的系统——云梯，并将其用于处理电子商务相关数据。

•2008年1月，Hadoop成为Apache顶级项目。

•2008年2月，Yahoo!运行了世界上最大的Hadoop应用，宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。

•2008年4月，在900个节点上运行1TB排序测试集仅需209秒，成为世界最快。

•2008年6月，Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。

•2008年7月，Hadoop打破1TB数据排序基准测试记录。Yahoo!的一个Hadoop集群用209秒完成1TB数据的排序，比上一年的纪录保持者保持的297秒快了将近90秒。

•2008年8月，第一个Hadoop商业化公司Cloudera成立。

•2008年10月，研究集群每天装载10TB的数据。

•2008年11月，Apache Pig的最初版本发布。

•2009年3月，17个集群总共24000台机器。

•2009 年3月，Cloudera推出世界上首个Hadoop发行版——CDH（Cloudera’s Distribution including Apache Hadoop）平台，完全由开放源码软件组成。

•2009年4月，赢得每分钟排序，59秒内排序500GB（在1400个节点上）和173分钟内排序100TB数据（在3400个节点上）。

•2009 年3月，Cloudera推出世界上首个Hadoop发行版——CDH平台，完全由开放源码软件组成。

•2009年4月，赢得每分钟排序，59秒内排序500GB（在1400个节点上）和173分钟内排序100TB数据（在3400个节点上）。

•2009年5月，Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。

•2009年6月，Cloudera的工程师Tom White编写的《Hadoop权威指南》初版出版，后被誉为Hadoop圣经**。**

•2009年7月，Hadoop Core项目更名为Hadoop Common;

•2009年7月，MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。

•2009年7月，Avro 和 Chukwa 成为Hadoop新的子项目。

•2009年8月，Hadoop创始人Doug Cutting加入Cloudera担任首席架构师。

•2009年10月，首届Hadoop World大会在纽约召开。

•2010年5月，Avro脱离Hadoop项目，成为Apache顶级项目。

•2010年5月，HBase脱离Hadoop项目，成为Apache顶级项目。

•2010年5月，IBM提供了基于Hadoop 的大数据分析软件**——InfoSphere BigInsights，包括基础版和企业版。**

•2010年9月，Hive( Facebook) 脱离Hadoop，成为Apache顶级项目。

•2010年9月，Pig脱离Hadoop，成为Apache顶级项目。

•2010年-2011年，扩大的Hadoop社区忙于建立大量的新组件（Crunch，Sqoop，Flume，Oozie等）来扩展Hadoop的使用场景和可用性。

•2011年1月，ZooKeeper 脱离Hadoop，成为Apache顶级项目。

•2011年3月，Apache Hadoop获得Media Guardian Innovation Awards 。

•2011年3月， Platform Computing 宣布在它的Symphony软件中支持Hadoop MapReduce API。

•2011年5月，Mapr Technologies公司推出分布式文件系统和MapReduce引擎**——**MapR Distribution for Apache Hadoop。

•2011年5月，HCatalog 1.0发布。该项目由Hortonworks 在2010年3月份提出，HCatalog主要用于解决数据存储、元数据的问题。

•2011年4月，SGI（Silicon Graphics International）基于SGI Rackable和CloudRack服务器产品线提供Hadoop优化的解决方案。
以上全部内容来自上课资料

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
简单梳理大数据编年史

•2002年10月，Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。•2003年10月，Google发表Google File System论文**。**•2004年7月，Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能，即后来HDFS的前身。•2004年10月，Google发表了MapReduce论文。•2005年2月，Mike Cafarella在Nutch中实现了MapReduce的最初版本。•2005年12月
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。