-
为什么要用Hadoop?
解决大量数据存储和分析过程中遇到的问题。Hadoop为我们提供了一个可靠的、可扩展的存储和分析平台,另外Hadoop运行在商用软件上,而且是开源的、免费的,因此使用Hadoop的成本比较低,是在用户的承受范围之内的。 -
Hadoop是什么?
Hadoop是apache基金会旗下的一款顶级项目,用于解决大数据集的存储和计算分析,是用java语言开发的,所以具有跨平台性,也是开源的。它运行在廉价机器上,认为机器故障是常态,也是利用集群的cpu的并发和计算能力,性能非常高。 -
四个核心模块:
HDFS(Hadoop distributed fileSystem):一种分布式文件存储系统,可提供对应用程序数据的高吞吐量。Yarn:Hadoop的作业调度和资源(cpu、磁盘、内存)管理的框架
Mapreduce(mr):Hadoop的分布式计算框架,提供了移动计算而非移动数据的思想,利用并发加快计算能力
Common:Hadoop框架的通用模块
-
Google的三篇论文
《GFS》:2003年发表,阐述了大数据集如何存储的问题,引入了分布式思想(将一个整体拆成多个子部分,子部分之间互相提供接口用于调用)。《Mapreduce》:2004年发表,阐述和解决了分布式文件系统上的大数据集如何快速分析、计算的问题。
《bigtable》:2006年发表,阐述了如何解决非结构化的数据不适合存储在关系型数据库中,又提供了另外一种存储思想NoSQL(not only SQL)。
-
发展历史
起源于nutch项目,创始人是道格.卡丁(doug Cutting)
ndfs灵感来源于《GFS》
Mapreduce的灵感来源于《Mapreduce》
2006年ndfs和Mapreduce单独抽出来形成hadoop项目 -
版本
1、社区版
2、CDH版
3、HDP版 -
Hadoop生态系统
Hadoop
spark
hbase
flink
zookeeper
sqoop
flume
kafka
大数据基础之Hadoop概述 -02
最新推荐文章于 2024-08-11 19:59:57 发布