大数据基本概念
- 一切皆是数据,大数据主要用来解决数据的储存和计算
1. 大数据的特点
- 大:数据量
- 多:数据种类
- 值:价值密度
- 快:增长速度
- 信:准确度可可信度
2. 数据类型
- 结构化
- 非结构化
- 半结构化(有结构,但不是很多,类似于 xml)
hadoop
1. 介绍
- 是开发和运行大规模数据的软件平台
- 模块
-
- HDFS:分布式存储框架,实现数据的海量储存
- YARN:统一的资源调度平台
- MAPREDUCE:实现分布式计算的框架
2. 特性
数据不容易丢失,有副本机制
3. 机构说明
a. 元数据
解释:描述数据的数据
b. Hadoop 2.X架构
- HDFS:分布式文件储存系统
-
- namenode:hdfs的主节点,可以有多个,但是最多只有两个
-
-
- 管理整个HDFS集群
- 对元数据进行管理操作
-
-
- datanode:HDFS的从节点,可以有多个
-
-
- 负责数据的最终储存
- 负责数据的读写操作
-
-
- secondarynamenode:辅助节点
-
-
- 辅助 namenode管理元数据
-
-
- 当对HDFS部署高可用的时候,此时已经没有 secondary name node,取而代之的是 journalnode
-
-
- 辅助管理 namenode的元数据
- 接受 active节点的namenode传递过来的元数据信息
- 让 standby状态的 namenode装变为从 journal node中拉取最新的元数据信息,确保两个 namenode的元数据信息一致
-
- YARN:分布式计算框架
-
- resource Manager:YARN平台的主节点,可以有多个
-
-
- 负责接受任务
- 负责为一个任务在nodeManager上启动一个application master
- 负责资源的分配
-
-
- application :只是一个进程,
-
-
- 对任务进行分配,并且想 resource Manager申请资源
-
-
- nodeManager:YARN的从节点
-
-
- 负责接受 application 分配过来的任务,最终执行这些任务
-