大数据和云计算
1 大数据和云计算的关系
G
=
f
(
x
)
G=f(x)
G=f(x)
G
G
G是目标,
f
f
f是云计算,
x
x
x是大数据。
云计算是处理大数据的手段。
2 云计算的技术
虚拟化、分布式计算、并行计算、效用计算
3 云计算的优势
与计算易于部署,方便维护,而且拓展起来也很快。
4 云服务类型
类型 | 服务内容 |
---|---|
IaaS | 基础资源封装成服务 |
PaaS | 云平台服务 |
SaaS | 云应用服务 |
5 GFS/HDFS的架构模式
HDFS采用master/slave体系,master运行NameNode,slave运行DateNode
客户端 ⇌ 中心服务器(NameNode)⇌ 数据块服务器(DateNode)
6 大数据处理过程
- 对原始数据进行分割,得到数据块
- 对每一个数据分块都运行一个Map进行处理
- 对Map得到的中间结果启动Reduce,输出最终结果的键值对
7 MapReduce编程结构
Map表示映射
(in_key, in_value) -> Map -> (key, value)
Reduce表示归约
(key, list[value]) -> Reduce -> (key,final_value)
8 VPC的概念
VPC是虚拟私有云服务,企业通过安全网络信道连接到云服务商的产品。
9 Hadoop的部署方式
部署方式 | 用途 |
---|---|
单机 | 函数调试 |
伪分布式 | 模拟调试 |
分布式 | 实际使用 |
10 Yarn的作用
Yarn是分布式操作系统,作用有资源管理和任务调度。
11 Hadoop组件
组件 | 功能 |
---|---|
Hbase | 分布式数据库(结构为行键、列键、列组) |
Hive | 数据仓库(将sql语句转换为MapReduce任务进行运行) |
Pig | 脚本语言平台 |
12 网络存储模式
模式 | 特点 |
---|---|
NAS | 使用局域网作为传输通道 |
FC-SAN | 使用光纤作为专用数据传输网络 |