4v特点
volume(体量大)
velocity(处理速度快)
variety(数据类型多)
value(价值密度低)
核心设计理念
并行化
规模经济
虚拟化
分布式系统满足需求
系统架构
大数据处理流程
采集数据
结构化数据:可用二维表表示
非结构化数据:声音、图像、视频
半结构化数据:xml文档
- 爬虫采集数据
scrapy
- 感知设备数据采集
- 分布式数据采集系统
- 系统架构
- 定向数据采集
- 采集算法类型
- 网络数据采集
模型层:从数据库中获取相关的数据
控制层:负责处理用户的请求
视图层:负责把数据显示在页面上
处理数据
- 数据清洗
整个数据集来看是离群点;
从邻域来看是离群点;
- 数据集成
- 数据转换
- 数据归约
- 数据处理任务
大数据相关技术
2、分布式处理技术
大数据处理方法
- 分类步骤
- 聚类步骤
- 关联分析任务
OLAP(联机分析处理)
大数据计算框架
批处理系统
MapReduce处理过程
流处理系统
流处理模式
混合处理系统
大数据应用框架
- 通用大数据应用架构
- 混搭大数据应用架构
大数据框架技术
- 日志收集器fluentd
数据挖掘技术
- 学习类型