hadoop知识总结

最新推荐文章于 2022-11-19 16:19:05 发布

6x6x6x

最新推荐文章于 2022-11-19 16:19:05 发布

阅读量166

点赞数

文章标签： hadoop

原文链接：https://blog.csdn.net/qq_39132578/article/details/79141947

版权

什么是hadoop

1.Hadoop：适合大数据的分布式存储和计算平台
2.Hadoop不是指具体一个框架或者组件，它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。
Hadoop1.x中包括两个核心组件：MapReduce和Hadoop Distributed File System(HDFS)
其中HDFS负责将海量数据进行分布式存储，而MapReduce负责提供对数据的计算结果的汇总

hadoop的起源

2003-2004年，Google公布了部分GFS和MapReduce思想的细节，受此启发的Doug Cutting等人用2年的业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。然后Yahoo招安Doug Gutting及其项目。
2005年，Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
2006年2月被分离出来，成为一套完整独立的软件，起名为Hadoop
Hadoop名字不是一个缩写，而是一个生造出来的词。是Hadoop之父Doug Cutting儿子毛绒玩具象命名的。
Hadoop的成长过程
Lucene–>Nutch—>Hadoop

总结起来，Hadoop起源于Google的三大论文
GFS：Google的分布式文件系统Google File System
MapReduce：Google的MapReduce开源分布式并行计算框架
BigTable：一个大型的分布式数据库

演变关系
GFS—->HDFS
Google MapReduce—->Hadoop MapReduce
BigTable—->HBase

hadoop的优点

1.扩容能力（Scalable）：Hadoop是在可用的计算机集群间分配数据并完成计算任务的，这些集群可用方便的扩展到数以千计个节点中。
2.成本低（Economical）：Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据，以至于成本很低。
3.高效率（Efficient）：通过并发数据，Hadoop可以在节点之间动态并行的移动数据，使得速度非常快。
4.可靠性（Rellable）：能自动维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。

linux命令大全

自己看

6x6x6x

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
hadoop知识总结

什么是hadoop1.Hadoop：适合大数据的分布式存储和计算平台2.Hadoop不是指具体一个框架或者组件，它是Apache软件基金会下用Java语言开发的一个开源分布式计算平台。实现在大量计算机组成的集群中对海量数据进行分布式计算。适合大数据的分布式存储和计算平台。Hadoop1.x中包括两个核心组件：MapReduce和Hadoop Distributed File System(...
复制链接

扫一扫