大数据技术介绍
大数据应用开发流程
- 数据采集与预处理
- 大数据存储与管理
- 大数据分析与挖掘
- 大数据可视化
1.数据采集与预处理
- 数据来源
- 人所产生的数据
- 机器、设备和物体的数据(通过传感器)
- 行业、科研实验数据(大型数据)
- 数据采集方法
- 系统日志采集方法
- 网站点击率、网页浏览痕迹等
- 网页数据采集方法
- 推文、评论、新闻信息等
- 系统日志采集方法
- 数据预处理
- 初始数据的获取
- 数据清理
- 数据集成与融合
- 数据变换
- 数据归约
2.大数据存储与管理
- 数据类型
- 结构化数据
- 保存在数据库中
- 关系型数据库、非关系型数据库
- 非结构化数据
- 文本、图片、音频、视频文件等
- 分布式文件系统
- 半结构化数据
- xml文件,json文件,计算机日志信息等
- 用自定义的结构来存储数据
- 结构化数据
- 数据存储方式
- 分布式文件系统
- 90%的大数据都是非结构化数据
- 分布式文件系统是把一个文件分割成很多个小的数据块,分布地存储到多个计算机节点上。
- 为了保证系统的容错性和可靠性
- 分布式文件系统