大数据技术概述
大数据产生的背景
数据量激增产生海量数据
大数据成为最值得关注的IT领域之一
大数据定义
数据量大
来源多种多样
数据处理速度快
价值密度低
大数据技术的发展
大数据技术的核心问题:海量数据如何可靠存储和高效计算
Google的三驾马车
GFS
Master节点管理所有的文件系统元数据
GFS存储的文件都被分割成固定大小的块,每个块都会复制到多个块服务器上(可靠性)。默认使用3份。
Master还管理着系统范围内的活动,比如块服务器之间的数据迁移等。
Master与每个块服务器通讯(发送心跳包),发送指令,获取状态。
MapReduce
MapReduce采用“分而治之”的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个子节点共同完成,然后整合各个子节点的中间结果,得到最终的计算结果。简而言之,MapReduce就是“分散任务,汇总结果”
BigTable
表中的行用分区管理。每个分区叫做一个”Tablet"Tablet Server存储多个Tablet
Hadoop概述
HDFS
HDFS: Hadoop Distributed File System,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础。它是对GFS论文的实现。
MapReduce
与Google的MapReduce一样
HBase
表中的行用分区管理。每个分区叫做:一个”Region"Region Server存储多个Region
Hadoop特点:
特点:
扩容能力强
成本低
高效率
可靠性
适合场景:
大数据分析
离线分析
不适合场景:
少量数据
复杂数据
在线分析
Hadoop生态圈
Hadoop典型应用场景与应用架构
应用场景
应用架构