大数据之Hadoop（从Hadoop框架讨论大数据生态）

最新推荐文章于 2024-04-20 23:46:34 发布

呆萌的小透明

最新推荐文章于 2024-04-20 23:46:34 发布

阅读量212

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/xiekengli8279/article/details/111317758

版权

14 篇文章 0 订阅

订阅专栏

（1）Lucene框架是Doug Cutting开创的开源软件，用Java书写代码，实现与Google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎。
（2）2001年年底Lucene称为Apache基金会的一个子项目。
（3）对于海量数据的场景，Lucene面对与Google同样的困难，存数据困难，检索速度慢。
（4）学习和模仿Google解决这些问题的办法：微型版Nutch。
（5）可以说Google是Hadoop的思想之源（Google在大数据方面的三篇论文）：GFS->HDFS、Map-Reduce->MR、BigTable->HBase。
（6）2003-2004年，Google公开了步幅GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。
（7）2005年Hadoop作为Lucene的子项目Nutch的一部分正式引入Apache基金会。
（8）2006年3月份，Map-Reduce和Nutch Distributed File System(NDFS)分别被纳入称为Hadoop的项目中。
（9）名字来源于Doug Cutting儿子的玩具大象。
（10）Hadoop就此诞生并迅速发展，大数据时代到来。

Hadoop 1.x组成：Common（辅助工具）、HDFS（数据存储）、MapReduce（计算+资源调度）。
Hadoop 2.x组成：Common（辅助工作）、HDFS（数据存储）、Yarn（资源调度）、MapReduce（计算）。
在Hadoop1.x时代，MapReduce同时处理业务逻辑运算和资源的调度，耦合性较大，在Hadoop2.x时代，增加了YARN。YARN只负责资源的调度，MapReduce只负责运算。
HDFS架构概述：（1）NameNode(nn)：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。
Secondary NameNode(2nn)：用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。

ResourceManager、Node Manager、ApplicationMaster（集群上运行的任务,job）
ResourceManager：（1）处理客户端请求（client->Job Submission）（2）监控NodeManager（Node Status）（3）启动或监控AplicationMaster（4）资源的分配与调度
NodeManager：（1）管理单个节点上的资源（2）处理来自ResourceManager的命令（3）处理来自ApplicationMaster的命令。
ApplicationMaster（AM）作用如下：（1）负责数据的切分（2）为应用程序申请资源并分配给内部的任务（3）任务的监控与容错
Container：Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU、磁盘、网络等。

数据来源层：数据库（结构化数据）、文件日志（半结构化数据）、视频、ppt等（非结构化数据）。
数据传输层：Sqoop数据传递、Flume日志收集、Kfaka消息队列。
数据存储层：HDFS文件存储、HBase非关系型数据库、Kfaka消息队列。
资源管理层：YARN资源管理。
数据计算层：MapReduce离线计算：Hive查询，Mahout数据挖掘、Spark Core内存计算：Spark Mlib数据挖掘，Spark R数据分析，Spark Sql数据查询，Spark Streaming（准实时，底层采用微批处理）、Storm实时计算。
任务调度层：Oozie任务调度、Azkaban任务调度。
zookeeper：数据平台配置和调度。
业务模型层：业务模型、数据可视化、业务应用。