Chapters 1 大数据挖掘及应用概论
1.1大数据智能分析处理的普及和应用
什么是云计算?
基于互联网的相关服务的增加、使用和交付模式,通常设计通过互联网来提供动态易扩展且经常是虚拟化的资源。
什么是大数据?
从资源视角看,大数据是新资源,体现了一种全新的资源观。
从技术视角看,大数据代表了新一代数据管理与分析技术,在超大规模数据集(PB量级)上进行分析、以分布式架构为主的新一代数据管理技术。
从理念视角看,大数据打开了一种全新的思维角度。
1.2大数据的发展以及挑战
大数据的5V特点是什么?
Velocity——实时性
Value——价值大
Volumn——体量大
Variety——多样性
Veracity——真实性
大数据具备什么样的特征?
*稠密与稀疏共存——局部稠密与全局稀疏
*冗余与缺失并存——大量冗余与局部缺失
*显示与隐式均有——大量显示与丰富隐式
*静态与动态互现——动态演进与静态关联
*多元与异质共处——多元多变与异质异性
*量大与可用矛盾——量大低值与可用稀少
从数据本身的角度而言,大数据技术能够发现数据之间存在的直接或间接的关联性,通过采用一系列技术和方法挖掘并发展数据中蕴含的价值,包括数据采集、预处理、存储、分析挖掘、可视化等。
大数据智能分析处理面临的挑战有什么?
*系统平台方面
大数据处理与硬件协同
大数据集成
大数据隐私
大数据能耗
大数据管理
*分析处理方面
大数据质量
大数据实时性
大数据采样
大数据不一致性
大数据不确定性
注意:大数据主要处理非结构化数据(图片、颜色等)
1.3数据挖掘概述
什么是数据挖掘?
数据挖掘就是知识发现的过程:
(1)数据清理——消除噪声和删除不一致数据
(2)数据集成——多种数据源可以组合在一起,形成数据集市或数据仓库
(3)数据选择——从数据库中提取与分析任务相关的数据
(4)数据变换——通过汇总或聚集操作,把数据经过变换统一成适合挖掘的形式
(5)数据挖掘——使用智能方法提取数据模式
(6)模式评估——根据某种兴趣度量,识别代表知识的真正有趣的模式
(7)知识表示——使用可视化和知识表示技术向用户提供挖掘的知识
简而言之,数据挖掘就是发现隐含规律
常见的数据挖掘功能有哪些?
*聚类:大数据分成不同的群组,群组之间差异明显
*分类:构造一个分类器,把数据映射到定类别中的某一个
*关联分析:寻找数据中值的关联和相关性
*数据总结:对数据进行浓缩,给出它的紧凑描述
*偏差检测:对分析对象的少数的、极端的特例进行描述,揭示内在的原因
*预测:把握分析对象发展的规律,对未来的趋势做出预见
数据挖掘都用到哪些技术?
*统计学
*机器学习
*数据库与数据仓库
*信息检索
*可视化
1.4大数据挖掘的计算框架
大数据处理的关键框架
大数据挖掘的几个步骤