MapReduce简史

Google的经典论文
2004年12月,Google公司发布MapReduce经典论文:来自Jeffrey Dean和Sanjay Ghemawat的“MapReduce: Simplified Data Processing on Large Clusters”,该文于2005年4月正式发表于国际会议OSDI,标志着Google的大规模数据处理系统MapReduce公开。
(http://research.google.com/archive/mapreduce.html)(http://research.google.com/archive/mapreduce-osdi04-slides/index.html)

关于Hadoop
Hadoop的设计思想来源于Google的MapReduce和GFS相关论文
早在2004年,Doug Cutting和Mike Cafarella就初步实现了HDFS和MapReduce,这是Hadoop的两大核心架构。
2006年1月,Doug Cutting加入Yahoo!
2006年2月,Apache启动了对Hadoop项目MapReduce和HDFS的独立支持。
(相关文献见:Open Source Distributed Computing: Yahoo’s Hadoop Support,http://developer.yahoo.com/blogs/ydn/posts/2007/07/yahoo-hadoop/)
2008年7月2日,Yahoo!的Hadoop集群利用910台机器排序1TB数据,所用时间为209秒。
(Apache Hadoop Wins Terabyte Sort Benchmark)

2008年11月21日,Google在其官方博客上宣布打破Yahoo!的记录:
We are excited to announce we were able to sort 1TB (stored on the Google File System as 10 billion 100-byte records in uncompressed text files) on 1,000 computers in 68 seconds. By comparison, the previous 1TB sorting record is 209 seconds on 910 computers.
It took six hours and two minutes to sort 1PB (10 trillion 100-byte records) on 4,000 computers. 
(Google Official Blog: Sorting 1PB with MapReduce)

对MapReduce持否定意见的也有之,比如David J. DeWitt和Michael Stonebraker的这篇文章就认为MapReduce是巨大的倒退
(http://homes.cs.washington.edu/~billhowe/mapreduce_a_major_step_backwards.html)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值