一、绪论
1.什么是数据挖掘
-
从大量数据中非平凡地提取隐含的、未知的、有潜在价值的有用信息
-
自动化、半自动化地探索、分析大量数据,以求发现有意义的模式
2.数据挖掘任务
- 预测任务(分类、回归...)
- 描述任务(关联、聚类..)
3.预测建模:涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务
- 分类:用于预测离散的目标变量
- 回归:用于预测连续的目标变量
4.关联分析:用来发现描述数据中心强关联特征的模式。
5.聚类分析:发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。
6.异常检测:识别其特征显著不同于其他数据的观测值。(异常点or离群点)
7.流程
数据清洗 ==> 数据集成 ==> 数据挖掘 ==> 模式评估
二、数据
1.基本概念
- 数据:数据对象和属性的集合。
- 属性:对象的某种特质,一组属性可描述一个对象。
- 属性值:属性的数值或符号描述。
- 数据集:数据对象的集合。
2.属性类型
- 标称norminal:(1)
- 序数ordinal:(1)(2)
- 区间interval:(1)(2)(3)
- 比率ratio:(1)(2)(3)(4)
(1)相异性 = ≠
(2)序 < ≤ >≥
(3)加法 + -
(4)乘法 * /
3.数据集特征
- 维度Dimensionality:数据集中的对象具有的属性数目。
- 稀疏度Sparsity:出现的那些值有意义。
- 分辨率Resolution
4.数据集类型
- 记录Record(记录数据、数据矩阵、文档数据、事务数据)
- 图Graph(万维网、分子结构)
- 有序数据Ordered(空间数据、时间数据、序列数据、基因数据)
5.数据质量
- 噪声值Noise
- 离群值Outlier:和大多数数据对象明显不同的值
- 缺失值Missing:需要排除或者合理估计一个值
- 重复值Duplicate
6.数据预处理
(1)集成Aggregation:将两个或多个对象合并成单个对象。
(2)抽样Sampling:选择数据对象子集进行分析。
- 简单随机抽样(有放回、无放回)
- 分层抽样
- 渐进抽样
(3)降维Dimensionality Reduction:
(4)特征子集选择Feature Subset Selection
- 蛮力法
- 嵌入法
- 过滤法
- 包装方法
(5)特征创建Feature Creation
- 特征提取
- 映射数据到空间:傅里叶变换、小波变换
- 特征构造
(6)离散化和二元化Discretization&Binarization
- 二元化:二进制表示
- 离散化
(7)变量变换Attribute Transformation
- 简单函数
- 规范化或标准化:x' = ( x - x平均值) / Sx ;x平均值,Sx是属性值的标准差。
7.相似性和相异性(在0~1之间取值)
(1)变换:相似度和相异度的转换
(2)相异度(距离)
- 欧几里得距离(euclidean distance):(n是维数,pk、qk分别是p、q的第k个属性值)
- 明可夫斯基距离(minkowski distance):(r = 1时是汉明距离(曼哈顿距离);r = 2时是欧几里得距离;r = ∞时,)
- 马氏距离(maahlanobis distance):(∑^-1 是数据协方差矩阵的逆)
(3)二元数据的相似度
- 简单匹配系数(SMC):SMC = 值匹配的属性个数 / 属性个数 = (M11 + M00) / (M01 + M10 + M11 + M00) (M11是x,y都取1的属性个数)
- jaccard系数:J = 匹配个数 / 不涉及0-0匹配的属性个数 = (M11) / (M01 + M10 + M11)
(4)余弦相似度
(d1d2是向量,注意点积)
(5)相关性
相关系数(需要先进行向量归一化):s(p,q)=p′.q′ (点乘)
(6)距离的特性
- 正定性
- 对称性
- 满足三角不等式