Hadoop入门

最新推荐文章于 2024-10-04 18:47:42 发布

野宇酱酱

最新推荐文章于 2024-10-04 18:47:42 发布

阅读量577

点赞数 9

文章标签： hadoop 大数据分布式

本文链接：https://blog.csdn.net/ye_yu181/article/details/138093377

版权

本文介绍了Hadoop的起源，从DougCutting的Lucene项目到Hadoop的诞生，以及HDFS架构。讲述了Hadoop在大数据处理中的关键组件MapReduce和HDFS的工作原理，以及Apache、Cloudera和Hortonworks等不同发行版本的特点。

摘要由CSDN通过智能技术生成

⚫ 概念

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决：海量数据的存储和分析计算的问题。（大数据技术涉及到的问题有：海联数据的收集、存储和计算。）

⚫ Hadoop发展
1）Hadoop创始人Doug Cutting，为了实现与Google类似的全文搜索功能，他在Lucene框架基础上进行优化升级，查询引擎和索引引擎。

2）2001年年底Lucene成为Apache基金会的一个子项目。
3）对于海量数据的场景，Lucene框架面对与Google同样的困难，存储海量数据困难，检索海量速度慢。
4）学习和模仿Google解决这些问题的办法：微型版Nutch。
5）可以说Google是Hadoop的思想之源（Google在大数据方面的三篇论文）：
GFS —>HDFS
Map-Reduce —>MR
BigTable —>HBase
6）2003-2004年，Google公开了部分GFS和MapReduce思想的细节，以此为基础Doug Cutting等人用
了2年业余时间实现了DFS和MapReduce机制，使Nutch性能飙升。
7）2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。
8）2006 年 3 月份，Map-Reduce和Nutch Distributed File System （NDFS）分别被纳入到 Hadoop 项目
中，Hadoop就此正式诞生，标志着大数据时代来临。
9）名字来源于Doug Cutting儿子的玩具大象。

⚫ Hadoop三大发行版本
Hadoop 三大发行版本：Apache、Cloudera、Hortonworks。
Apache 版本最原始（最基础）的版本，对于入门学习最好。2006
Cloudera 内部集成了很多大数据框架，对应产品 CDH，PaaS。2008
Hortonworks 文档较好，对应产品 HDP，PaaS。2011
Hortonworks 现在已经被 Cloudera 公司收购，推出新的品牌 CDP。

⚫ Hadoop的优势

1）高可靠性

2）高扩展性

3）高效性

4）高容错性

⚫ HDFS 架构概述

HDFS，是一个分布式文件系统
1）NameNode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的DataNode等。
（1）管理HDFS的名称空间；
（2）配置副本策略；
（3）管理数据块（Block）映射信息；
（4）处理客户端读写请求。
2）DataNode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。
（1）存储实际的数据块；
（2）执行数据块的读/写操作。
3）Secondary NameNode(2nn)：每隔一段时间对NameNode元数据备份。并非NameNode的热备。当NameNode挂掉的时候，它并不能马上替换NameNode并提供服务。
（1）辅助NameNode，分担其工作量，比如定期合并Fsimage和Edits，并推送给NameNode ；
（2）在紧急情况下，可辅助恢复NameNode。