Hadoop入门

本文介绍了Hadoop的起源,从DougCutting的Lucene项目到Hadoop的诞生,以及HDFS架构。讲述了Hadoop在大数据处理中的关键组件MapReduce和HDFS的工作原理,以及Apache、Cloudera和Hortonworks等不同发行版本的特点。
摘要由CSDN通过智能技术生成
概念
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决:海量数据的存储和分析计算的问题。(大数据技术涉及到的问题有:海联数据的收集、存储和计算。) 

Hadoop发展
1)Hadoop创始人Doug Cutting,为了实现与Google类似的全文搜索功能,他在Lucene框架基础上进行优化升级,查询引擎和索引引擎。

2)2001年年底Lucene成为Apache基金会的一个子项目。
3)对于海量数据的场景,Lucene框架面对与Google同样的困难,存储海量数据困难,检索海量速 度慢。
 4)学习和模仿Google解决这些问题的办法 :微型版Nutch。
 5)可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文):
 GFS —>HDFS
 Map-Reduce —>MR
 BigTable —>HBase
 6)2003-2004年,Google公开了部分GFS和MapReduce思想的细节,以此为基础Doug Cutting等 人用
 了2年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。
 7)2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。
 8)2006 年 3 月份,Map-Reduce和Nutch Distributed File System (NDFS)分别被纳入到  Hadoop 项目
 中,Hadoop就此正式诞生,标志着大数据时代来临。
 9)名字来源于Doug Cutting儿子的玩具大象。


⚫ Hadoop三大发行版本
 Hadoop 三大发行版本:Apache、Cloudera、Hortonworks。
 Apache 版本最原始(最基础)的版本,对于入门学习最好。2006
 Cloudera 内部集成了很多大数据框架,对应产品 CDH,PaaS。2008
 Hortonworks 文档较好,对应产品 HDP,PaaS。2011
 Hortonworks 现在已经被 Cloudera 公司收购,推出新的品牌 CDP。


⚫ Hadoop的优势

1)高可靠性

2)高扩展性

3)高效性

4)高容错性


⚫ HDFS 架构概述

HDFS,是一个分布式文件系统
1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
(1)管理HDFS的名称空间;
(2)配置副本策略;
(3)管理数据块(Block)映射信息;
(4)处理客户端读写请求。
2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
(1)存储实际的数据块;
(2)执行数据块的读/写操作。
3)Secondary NameNode(2nn):每隔一段时间对NameNode元数据备份。并非NameNode的热备。当NameNode挂掉的时候,它并不能马上替换NameNode并提供服务。
(1)辅助NameNode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode ;
(2)在紧急情况下,可辅助恢复NameNode。

  • 9
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值