大数据基础之Hadoop概述 -02

最新推荐文章于 2024-08-11 19:59:57 发布

姓韩的大妹子

最新推荐文章于 2024-08-11 19:59:57 发布

阅读量199

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_47796156/article/details/108706368

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

为什么要用Hadoop？
解决大量数据存储和分析过程中遇到的问题。Hadoop为我们提供了一个可靠的、可扩展的存储和分析平台，另外Hadoop运行在商用软件上，而且是开源的、免费的，因此使用Hadoop的成本比较低，是在用户的承受范围之内的。
Hadoop是什么？
Hadoop是apache基金会旗下的一款顶级项目，用于解决大数据集的存储和计算分析，是用java语言开发的，所以具有跨平台性，也是开源的。它运行在廉价机器上，认为机器故障是常态，也是利用集群的cpu的并发和计算能力，性能非常高。
四个核心模块：
HDFS（Hadoop distributed fileSystem）：一种分布式文件存储系统，可提供对应用程序数据的高吞吐量。

Yarn：Hadoop的作业调度和资源（cpu、磁盘、内存）管理的框架

Mapreduce（mr）：Hadoop的分布式计算框架，提供了移动计算而非移动数据的思想，利用并发加快计算能力

Common：Hadoop框架的通用模块
Google的三篇论文
《GFS》：2003年发表，阐述了大数据集如何存储的问题，引入了分布式思想（将一个整体拆成多个子部分，子部分之间互相提供接口用于调用）。

《Mapreduce》：2004年发表，阐述和解决了分布式文件系统上的大数据集如何快速分析、计算的问题。

《bigtable》：2006年发表，阐述了如何解决非结构化的数据不适合存储在关系型数据库中，又提供了另外一种存储思想NoSQL（not only SQL）。
发展历史
起源于nutch项目，创始人是道格.卡丁（doug Cutting）
ndfs灵感来源于《GFS》
Mapreduce的灵感来源于《Mapreduce》
2006年ndfs和Mapreduce单独抽出来形成hadoop项目
版本
1、社区版
2、CDH版
3、HDP版
Hadoop生态系统
Hadoop
spark
hbase
flink
zookeeper
sqoop
flume
kafka