Hadopp简介

最新推荐文章于 2023-05-17 17:27:42 发布

yesmeshtu

最新推荐文章于 2023-05-17 17:27:42 发布

阅读量310

点赞数

分类专栏： Hadoop 文章标签： Hadoop Mapreduce Google Linux HBase

本文链接：https://blog.csdn.net/yesmeshtu/article/details/83729472

版权

Hadoop 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

http://baike.baidu.com/view/908354.htm（自）

一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。

项目主页：http://hadoop.apache.org

一个分布式系统基础架构，由Apache基金会开发。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力高速运算和存储。

　　简单地说来，Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。　　Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有着高容错性（fault-tolerent）的特点，并且设计用来部署在低廉的（low-cost）硬件上。而且它提供高传输率（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求（requirements）这样可以流的形式访问（streaming access）文件系统中的数据。　　下面列举hadoop主要的一些特点：　　1 扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。2 成本低（Economical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。3 高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。4 可靠性（Reliable）：hadoop能自动地维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。

编辑本段

起源：Google的集群系统

　　Google的数据中心使用廉价的Linux PC机组成集群，在上面运行各种应用。即使是分布式开发的新手也可以迅速使用Google的基础设施。核心组件是3个：　　1、GFS（Google File System）。一个分布式文件系统，隐藏下层负载均衡，冗余复制等细节，对上层程序提供一个统一的文件系统API接口。Google根据自己的需求对它进行了特别优化，包括：超大文件的访问，读操作比例远超过写操作，PC机极易发生故障造成节点失效等。GFS把文件分成64MB的块，分布在集群的机器上，使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点，根据文件索引，找寻文件块。详见Google的工程师发布的GFS论文。　　2、MapReduce。Google发现大多数分布式运算可以抽象为MapReduce操作。Map是把输入Input分解成中间的Key/Value对，Reduce把Key/Value合成最终输出Output。这两个函数由程序员提供给系统，下层设施把Map和Reduce操作分布在集群上运行，并把结果存储在GFS上。　　3、BigTable。一个大型的分布式数据库，这个数据库不是关系式的数据库。像它的名字一样，就是一个巨大的表格，用来存储结构化的数据。　　以上三个设施Google均有论文发表。

编辑本段

开源实现

　　Hadoop是项目的总称，起源于作者儿子的一只吃饱了的大象的名字。主要是由HDFS、MapReduce和Hbase组成。　　HDFS是Google File System（GFS）的开源实现。　　MapReduce是Google MapReduce的开源实现。　　HBase是Google BigTable的开源实现。　　这个分布式框架很有创造性，而且有极大的扩展性，使得Google在系统吞吐量上有很大的竞争力。因此Apache基金会用Java实现了一个开源版本，支持Fedora、Ubuntu等Linux平台。目前Hadoop受到Yahoo的支持，有 Yahoo员工长期工作在项目上，而且Yahoo内部也准备使用Hadoop代替原来的的分布式系统。　　Hadoop实现了HDFS文件系统和MapRecue。用户只要继承MapReduceBase，提供分别实现Map和Reduce的两个类，并注册Job即可自动分布式运行。　　目前Release版本是0.20.1。还不成熟，但是已经集群规模已经可以达到4000个节点，是由Yahoo!实验室中构建的。下面是此集群的相关数据: 　　• 4000 节点　　• 2 x quad core Xeons@2.5ghz per 节点　　• 4 x 1TB SATA Disk per 节点　　• 8G RAM per 节点　　• 千兆带宽 per 节点　　• 每机架有40个节点　　• 每个机架有4千兆以太网上行链路　　• Redhat Linux AS4 （ Nahant update 5 ）　　• Sun Java JDK1.6.0_05 - b13 　　• 所以整个集群有30000多个CPU，近16PB的磁盘空间！　　HDFS把节点分成两类：NameNode和DataNode。NameNode是唯一的，程序与之通信，然后从DataNode上存取文件。这些操作是透明的，与普通的文件系统API没有区别。　　MapReduce则是JobTracker节点为主，分配工作以及负责和用户程序通信。　　HDFS和MapReduce实现是完全分离的，并不是没有HDFS就不能MapReduce运算。　　Hadoop也跟其他云计算项目有共同点和目标：实现海量数据的计算。而进行海量计算需要一个稳定的，安全的数据容器，才有了Hadoop分布式文件系统（HDFS，Hadoop Distributed File System）。　　HDFS通信部分使用org.apache.hadoop.ipc，可以很快使用RPC.Server.start()构造一个节点，具体业务功能还需自己实现。针对HDFS的业务则为数据流的读写，NameNode/DataNode的通信等。　　MapReduce主要在org.apache.hadoop.mapred，实现提供的接口类，并完成节点通信（可以不是hadoop通信接口），就能进行MapReduce运算。　　目前这个项目还在进行中，还没有到达1.0版本，和Google系统的差距也非常大，但是进步非常快，值得关注。　　另外，这是云计算（Cloud Computing）的初级阶段的实现，是通向未来的桥梁。　　Hadoop的发音音标 [hædu:p]

编辑本段

Hadoop研究

　　Hadoop是原Yahoo的Doug Cutting根据Google发布的学术论文研究而来。Doug Cutting给这个Project起了个名字，　　就叫Hadoop。其实Hadoop也是Doug Cutting的孩子的玩具的名字，一个可爱的黄色小象。　　现在，Doug Cutting在Cloudera公司。Cloudera的Hadoop是商用版。不同于Apache的开源版。　　如果要研究Hadoop的话，在下载Apache的版本是一种不错的选择。　　只研究Apache版本的，不足以对Hadoop的理念理解。再对Cloudera版本的研究，会更上一层楼。　　现在美国的AsterData，也是Hadoop的一个商用版，AsterData的MPP理念，Applications Within理念等等，　　也都是值得研究。　　Google的成功已经说明了RDB的下一代就是Nosql（Not Only SQl），比说说GFS，Hadoop等等。　　Hadoop作为开源的版本来说，其魅力更是不可估量。　　上文中说到Google的学术论文，其中包涵有　　Google File System（大规模分散文件系统）　　MapReduce （大规模分散FrameWork）　　BigTable（大规模分散数据库）　　Chubby（分散锁服务）　　这四大InfrastructureSoftware的陈述。　　说起Google的GFS和Hadoop，不仅让我想起了，Unix和Linux。　　由Unix而来的开源Linux，现在更是家喻户晓了。很多大型公司都起用Linux作为服务器。　　相信不久的将来，Hadoop会像Linux一样，席卷全球，惠而全球。

扩展阅读：

http://hadoop.apache.org
http://bbs.hadoopor.com