数据分析师眼中的大数据和Hadoop

最新推荐文章于 2024-08-08 10:34:27 发布

喜碧夫人听众

最新推荐文章于 2024-08-08 10:34:27 发布

阅读量2.5k

点赞数 1

分类专栏：大数据文章标签：大数据 Hadoop

本文链接：https://blog.csdn.net/zhchs2012/article/details/80356920

版权

本文介绍了大数据的起源和Hadoop的基本框架，包括MapReduce、HDFS和YARN。Hadoop是一个Java编写的开源框架，其家族产品如Hive、Impala等提供了丰富的数据分析工具。Hadoop的演进和YARN解决了旧MapReduce的资源管理问题，使得更多技术工具能在同一集群上协同工作。此外，文章还提到了Hadoop家族的其他成员，如HBase、Storm和Spark，以及它们在大数据处理中的角色。

摘要由CSDN通过智能技术生成

一、前言

大数据这个概念不用我提大家也听过很多了，前几年各种公开论坛、会议等场合言必及大数据，说出来显得很时髦似的。有意思的是最近拥有这个待遇的名词是“人工智能/AI”，当然这是后话。

众所周知，大数据的发展是来源于Google三驾马车，分别是：

Google File System（GFS） —2003
MapReduce —2004
Bigtable —2006

不得不说，Google真的是一家牛逼的公司，开源了这些思想造福了全球的IT事业。不过有意思的是，这三篇论文一开始并不是大数据相关的，而是为了更好地服务谷歌自家的搜索业务。基于此，出现了传统的大数据框架三大组件：HDFS、MapReduce、Hbase，这就是Hadoop最开始的样子。

二、Hadoop简介

Hadoop是一个用Java编写的Apache开源框架，现在我们提到Hadoop可能有两种所指，一种是Hadoop几个基本模块，另一种是可以安装在Hadoop之上的附加软件包的集合，例如Hive、Impala、Oozie、Hue等等等等，也称之为Hadoop家族。所以说，Hadoop技术产品是十分丰富并且在一直不停地演化，有些技术可能几年后不流行了，又或者产生了新的技术。所以在大数据领域是需要不断地学习的，这也导致了大数据领域的工作一般待遇都很丰厚，因为要求真的还蛮高的，需要掌握的技术线比较长。
随便丢张图了解下（图随便找的，有些技术可能已经不流行了，有些目前流行的技术没有）：
这里写图片描述