回顾——Hadoop简介

(硕士读了一年多,除了论文就是论文,甚是枯燥,过些日子打算去找工作,所以借助此平台给自己一个复习的过程并把自己复习过程中做的笔记分享给大家。此回顾首先从hadoop开始,接下来有可能会加入spark,算法,机器学习,设计模式等。)

复习——HADOOP简介
一、大数据的基本特性:4V
1、Volume: M->G->T->P->E->Z->(容量)
2、Varity:文本、图片、视频音频…
3、Veracity:精确
4、Velocity:速度要求快、数据输入输出的速度

二、什么是Hadoop
1、Hadoop是一种开源的可靠的,可扩展的,大数据分布式计算框架。支持从一台到数以千台的机器,并且在每一台上面都支持本地计算和存储。支持很多操作系统版本,但是一般企业都会选择linux,很少有企业会选择windows来做大数据。所以学习hadoop当然要掌握linux的相关技能。
2、包括
HDFS:Hadoop的分布式文件系统
MapReduce:Hadoop的离线并行计算模型
YARN:一种任务调度和资源管理框架(2.0版本以后)
3、Google三篇论文
Hadoop的设计思想来源于谷歌的三大论文,GFS、MapReduce、BigTable。分别对应hadoop的HDFS、MapReduce、HBase。

三、分布式文件系统
HDFS中主要包含两个节点,namenode和datanode。在2.0版本以前存在secondarynamenode,但是在使用zookeeper协助HDFS做HA之后就不再使用了。
Namenode:存储文件的元数据信息(fsimage)和对文件操作信息(edits)
Datanode:数据存储;文件存储以块的形式,默认128MB,文件不足128MB不会占满整个块;默认情况存储副本数为三个,分别为机器本、同机架、不同机架;定期向namenode发送报告。

四、YARN架构
YARN是一种资源管理与应用调度框架,在hadoop2.0以后被提出的,大数据的许多框架都能和其集成。
Resourcemanager:负责整个系统的资源管理,资源分配,协调
Nodemanager:负责单个任务管理,任务的本地运行。(通常每个datanode配备一个nodemanager以保证任务本地执行)
Hadoop1与Hadoop2对比

五、MapReduce
MapReduce是一种大数据并行计算模型,主要包括Map端、shuffle过程和Reduce端。其中map和reduce的输入输出都是以键值对的方式进行的。shuffle则包括分区,分组,排序等过程。最为经典的就是wordcount程序,号称大数据的hello world。
由于mapreduce只能处理离线数据,并且速度较为缓慢,所以现在此部分渐渐被spark所替换。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值