Hadoop

大数据技术概述

大数据产生的背景

数据量激增产生海量数据

大数据成为最值得关注的IT领域之一

大数据定义

数据量大

来源多种多样

数据处理速度快

价值密度低

大数据技术的发展

大数据技术的核心问题:海量数据如何可靠存储和高效计算

Google的三驾马车

GFS

Master节点管理所有的文件系统元数据

GFS存储的文件都被分割成固定大小的块,每个块都会复制到多个块服务器上(可靠性)。默认使用3份。

Master还管理着系统范围内的活动,比如块服务器之间的数据迁移等。

Master与每个块服务器通讯(发送心跳包),发送指令,获取状态。

MapReduce

MapReduce采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个子节点共同完成,然后整合各个子节点的中间结果,得到最终的计算结果。简而言之,MapReduce就是“分散任务,汇总结果”

BigTable

表中的行用分区管理。每个分区叫做一个”Tablet"Tablet Server存储多个Tablet

Hadoop概述

HDFS

HDFS: Hadoop Distributed File System,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。它是对GFS论文的实现。

MapReduce

与Google的MapReduce一样

HBase

表中的行用分区管理。每个分区叫做:一个”Region"Region Server存储多个Region

Hadoop特点:

特点:

扩容能力强

成本低

高效率

可靠性

适合场景:

大数据分析

离线分析

不适合场景:

少量数据

复杂数据

在线分析

Hadoop生态圈

Hadoop典型应用场景与应用架构

应用场景

应用架构

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值