9.9 大数据概况以及Hadoop生态圈

最新推荐文章于 2021-07-09 11:38:46 发布

伱来打硪啊

最新推荐文章于 2021-07-09 11:38:46 发布

阅读量222

点赞数 1

分类专栏： hadoop 文章标签： hadoop hdfs zookeeper 大数据

本文链接：https://blog.csdn.net/weixin_45355124/article/details/108519456

版权

hadoop 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

大数据

1、什么是大数据
	大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
2、大数据特征
	4V特征：
		Volume(大数据量)：90% 的数据是过去两年产生
		Velocity(速度快)：数据增长速度快，时效性高
		Variety(多样化)：数据种类和来源多样化
			数据种类包括结构化数据，半结构化数据，非结构化数据，表现为日志，音频，视频，图片，地理位置信息等
		Value(价值密度低)：需挖掘获取数据价值
	固有特征：
		时效性：指一段时间在某一时间段内产生的已知的数据，并且决策在哪些时间内具有价值的属性。
		不可变性：已产生的数据不会改变，我们将大数据的变化视为新数据条目的产生，而不是现有条目的更新

分布式计算

	传统分布式计算	新的分布式计算-Hadoop
计算方式	将数据复制到计算节点	在不同数据局节点并行计算
可处理数据量	小数据量	大数据量
CPU性能限制	受CPU限制较大	受单台设备限制小
提升计算能力	提升单台机器计算能力	扩展低成本服务器集群

注：传统分布式计算举例：web分布式架构的模式实现，由于传统的分布式架构存在弊端，无法实现大数据的计算要求，所以产生了新的分布式计算架构，基于Hadoop集群的分布式计算

Hadoop

Hadoop是什么?
	Hadoop是一个开源分布式系统架构
		分布式文件系统HDFS——解决大数据存储
		分布式计算框架MapReduce——解决大数据计算
		分布式资源管理系统YARN
	处理海量数据的架构首选
	非常快得完成大数据计算任务
	已发展成为一个Hadoop生态圈
Hadoop发展及版本
	Hadoop起源于搜索引擎Apache Nutch
		创始人：Doug Cutting
		2004年 - 最初版本实施
		2008年 - 成为Apache顶级项目
	Hadoop发行版本
		社区版：Apache Hadoop
		Cloudera发行版：CDH
		Hortonworks发行版：HDP
注：Apache Hadoop是最原始版本，其他版本是基于该版本改进
	CDH 完全开源，兼容性、安全性和稳定性有所增强
和HDP也都是开源版本，集成了开源监控方案

为什么使用Hadoop?
	高扩展性，可伸缩
		可以根据需要添加新节点，而不需要更改现有的数据分布，也不需要更改作业和应用程序。
	高可靠性（Rellable）
		多副本机制，容错高
		能自动维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。当您丢失一个节点时，系统将工作重定向到数据的另一个位置，并在不中断的情况下继续处理。
	低成本
		Hadoop通过普通廉价的机器组成服务器集群来分发以及处理数据，以至于成本很低
	无共享架构
		不同机器上的不同分块的数据处理相互不干扰
	灵活，可存储任意类型数据
	开源，社区活跃

Hadoop VS RDBMS

	RDBMS	Hadoop
格式	写数据时要求	读数据时要求
速度	读数据时速度快	写数据时速度快
数据监管	标准结构化	任意结构数据
数据处理	有限的处理能力	强大的处理能力
数据类型	结构化数据	结构化、半结构化、非结构化
应用场景	交互式OLAP分析ACLD事务处理企业业务系统	处理费结构化数据海量数据存储计算

Hadoop生态圈

Hive定义了一种类似SQL的查询语言(HQL),将SQL转化为MapReduce任务在Hadoop上执行。通常用于离线分析。
Pig定义了一种数据流语言—Pig Latin，它是MapReduce编程的复杂性的抽象,Pig平台包括运行环境和用于分析Hadoop数据集的脚本语言(Pig Latin)。
impala：一个开源的查询引擎。与hive相同的元数据，SQL语法，ODBC驱动程序和用户接口，可以直接在HDFS上提供快速，交互式SQL查询。impala不再使用缓慢的hive+mapreduce批处理，而是通过与商用并行关系数据库中类似的分布式查询引擎。
Presto是一个分布式的查询引擎，本身并不存储数据，但是可以接入多种数据源，并且支持跨数据源的级联查询。presto的查询速度比hive快5-10倍

HCatalog是Hadoop的表存储管理工具。它将Hive Metastore的表格数据公开给其他Hadoop应用程序。使得具有不同数据处理工具（Pig，MapReduce）的用户能够轻松将数据写入网格。它确保用户不必担心数据存储在何处或以何种格式存储。
zookeeper是一个分布式的，开放源码的分布式应用程序协调服务，解决分布式环境下的数据管理问题：统一命名，状态同步，集群管理，配置同步等。
Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。

Sqoop是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库中。
Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各类数据发送方，用于收集数据；同时，Flume提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。

Spark是一个用来实现快速而通用的集群计算的平台。扩展了广泛使用的MapReduce计算模型，而且高效地支持更多的计算模式，包括交互式查询和流处理。在处理大规模数据集的时候，速度是非常重要的。Spark的一个重要特点就是能够在内存中计算，因而更快。
HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。
mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建只能应用程序。mahout现在已经包含了聚类，分类，推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法。

oozie——一个能把多个MR作业组合为一个逻辑工作单元（一个工作流），从而自动完成任务调用的工具

Zookeeper

（1）是一个分布式应用程序协调服务
	解决分布式集群中应用系统的一致性问题
（2）提供的功能
	配置管理、命名服务、分布式同步、队列管理、集群管理等
（3）特性
	全局数据一致
	可靠性、顺序性、实时性
	数据更新原子性
（4）Zookeeper集群
	角色：Leader、Follower、Observer

Hadoop架构

HDFS(Hadoop Distributed File System)
	分布式文件系统，解决分布式存储
MapReduce
	分布式计算框架
YARN
	分布式资源管理系统
	在Hadoop 2.x中引入
Common
	支持所有其他模块的公共工具程序

HDFS

HDFS特点

HDFS优点：
（1）支持处理超大文件
	GB,TB,设置PB级数据。百万规模以上文件数量。10K+节点规模。
（2）可构建在廉价机器上
	通过多副本提高可靠性。提供容错和恢复机制。
（3）高容错性
	数据自动保存多个副本，副本丢失后，自动恢复
（4）流式文件访问
	一次性写入，多次读取。保证数据一致性。

HDFS缺点：
（1）不适合低延迟数据访问场景
	比如毫秒级，低延迟与高吞吐率
（2）不适合小文件存取场景
	占用NameNode大量内存。寻找时间超过读取时间。
（3）不适合并发写入，文件随机修改场景
	一个文件只能有一个写者。仅支持append。不支持在文件任意位置修改，写操作总是在文件末尾

HDFS角色

Client：客户端
	对文件进行切分
NameNode (NN)：元数据节点
	管理文件系统的Namespace/元数据
	一个HDFS集群只有一个Active的NN
DataNode (DN)：数据节点
	数据存储节点，保存和检索Block
	一个集群可以有多个数据节点
Secondary NameNode (SNN)：从元数据节点
	合并NameNode的edit logs到fsimage文件中
	辅助NN将内存中元数据信息持久化

HDFS架构

HDFS副本机制

Block：数据块
	HDFS最基本的存储单元
	默认块大小：128M（2.x）
副本机制
	作用：避免数据丢失
	副本数默认为3
	存放机制：
		一个在本地机架节点
		一个在同一个机架不同节点
		一个在不同机架的节点

为什么hdfs需要副本机制？
大量相对廉价的计算机，宕机事件发生时，我们需要让数据避免丢失，就只有采取冗余数据存储，而具体的实现就是副本机制
HDFS将每一个文件的数据进行分块存储，同时每一个数据块又保存有多个副本，这些数据块副本分布在不同的机器节点上，这种数据分块存储+副本的策略是HDFS保证可靠性和性能的关键，这是因为：一.文件分块存储之后按照数据块来读，提高了文件随机读的效率和并发读的效率；二.保存数据块若干副本到不同的机器节点实现可靠性的同时也提高了同一数据块的并发读效率；三.数据分块是非常切合MapReduce中任务切分的思想。

在大多数情况下，副本系数是3，HDFS的存放策略是将一个副本存放在本地机架节点上，一个副本存放在同一个机架的另一个节点上，最后一个副本放在不同机架的节点上。这种策略减少了机架间的数据传输，提高了写操作的效率。机架的错误远远比节点的错误少，所以这种策略不会影响到数据的可靠性和可用性。与此同时，因为数据块只存放在两个不同的机架上，所以此策略减少了读取数据时需要的网络传输总带宽。在这种策略下，副本并不是均匀的分布在不同的机架上：三分之一的副本在一个节点上，三分之二的副本在一个机架上，其它副本均匀分布在剩下的机架中，这种策略在不损害数据可靠性和读取性能的情况下改进了写的性能。

HDFS高可用（High Availability）

在1.x版本中
	存在Namenode单点问题
在2.x版本中
	解决：HDFS Federation方式，共享DN资源
	Active Namenode
		对外提供服务
	Standby Namenode
		Active故障时可切换为Active

HDFS读文件

HDFS读文件
读文件流程：
1、首先调用FileSystem.open()方法，获取到DistributedFileSystem实例
2、DistributedFileSystem 向Namenode发起RPC(远程过程调用)请求获得文件的开始部分或全部block列表，对于每个返回的块，都包含块所在的DataNode地址。
这些DataNode会按照Hadoop定义的集群拓扑结构得出客户端的距离，然后再进行排序。如果客户端本身就是一个DataNode，那么他将从本地读取文件。
3、DistributedFileSystem会向客户端client返回一个支持文件定位的输入流对象FSDataInputStream，用于客户端读取数据。
FSDataInputStream包含一个DFSInputStream对象，这个对象用来管理DataNode和NameNode之间的I/O
4、客户端调用read()方法，DFSInputStream就会找出离客户端最近的datanode并连接datanode
5、DFSInputStream对象中包含文件开始部分的数据块所在的DataNode地址，首先它会连接包含文件第一个块最近DataNode。随后，在数据流中重复调用read()函数，直到这个块全部读完为止。
如果第一个block块的数据读完，就会关闭指向第一个block块的datanode连接，接着读取下一个block块
6、如果第一批block都读完了，DFSInputStream就会去namenode拿下一批blocks的location，然后继续读，如果所有的block块都读完，这时就会关闭掉所有的流。

read 方法是并行的读取 block 信息，不是一块一块的读取；NameNode 只是返回Client请求包含块的DataNode地址，并不是返回请求块的数据；
最终读取来所有的 block 会合并成一个完整的最终文件。

HDFS写文件

HDFS写文件
写文件流程：
1 Client发起文件上传请求，调用DistributedFileSystem对象的create方法，创建一个文件输出流（FSDataOutputStream）对象
2 通过DistributedFileSystem对象与Hadoop集群的NameNode进行一次RPC远程调用，NameNode检查目标文件是否已存在，父目录是否存在，返回是否可以上传；在HDFS的Namespace中创建一个文件条目（Entry），该条目没有任何的Block
3 通过FSDataOutputStream对象，向DataNode写入数据，数据首先被写入FSDataOutputStream对象内部的Buffer中，然后数据被分割成一个个Packet数据包
4 以Packet最小单位（默认64K），基于Socket连接发送到按特定算法选择的HDFS集群中一组DataNode（正常是3个，可能大于等于1）中的一个节点上，在这组DataNode组成的Pipeline上依次传输Packet：client请求3台DataNode中的一台A上传数据（本质上是一个RPC调用，建立pipeline），A收到请求会继续调用B，然后B调用C，将整个pipeline建立完成，后逐级返回client；
5 这组DataNode组成的Pipeline反方向上，发送ack，最终由Pipeline中第一个DataNode节点将Pipeline ack发送给Client
6 完成向文件写入数据，Client在文件输出流（FSDataOutputStream）对象上调用close方法，关闭流
7 调用DistributedFileSystem对象的complete方法，通知NameNode文件写入成功

HDFS文件格式

HDFS支持以不同格式存储所有类型的文件
	文本、二进制
	未压缩、压缩
为了最佳的Map-Reduce处理，文件需可分割
	SequenceFile
	Avro File
	RCFile&ORCFile
	Parquet File

伱来打硪啊

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
9.9 大数据概况以及Hadoop生态圈

大数据1、什么是大数据大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。2、大数据特征 4V特征： Volume(大数据量)：90% 的数据是过去两年产生 Velocity(速度快)：数据增长速度快，时效性高 Variety(多样化)：数据种类和来源多样化数据种类包括结构化数据，半结构化数据，非结构化数据，表现为日志，音频，视频，图片，地理位置信息等 Value(价值密度低)：需挖掘获取数据价值固有特征：时效性：指一段时间在某一时间段
复制链接

扫一扫