数据挖掘第一、二章——绪论、数据

最新推荐文章于 2022-05-14 13:20:10 发布

喝口茶吧

最新推荐文章于 2022-05-14 13:20:10 发布

阅读量731

点赞数

文章标签：数据挖掘

本文链接：https://blog.csdn.net/weixin_45876739/article/details/122139136

版权

一、绪论

1.什么是数据挖掘

从大量数据中非平凡地提取隐含的、未知的、有潜在价值的有用信息
自动化、半自动化地探索、分析大量数据，以求发现有意义的模式

2.数据挖掘任务

预测任务（分类、回归...）
描述任务（关联、聚类..）

3.预测建模：涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务

分类：用于预测离散的目标变量
回归：用于预测连续的目标变量

4.关联分析：用来发现描述数据中心强关联特征的模式。

5.聚类分析：发现紧密相关的观测值组群，使得与属于不同簇的观测值相比，属于同一簇的观测值相互之间尽可能类似。

6.异常检测：识别其特征显著不同于其他数据的观测值。（异常点or离群点）

7.流程

数据清洗 ==> 数据集成 ==> 数据挖掘 ==> 模式评估

二、数据

1.基本概念

数据：数据对象和属性的集合。
属性：对象的某种特质，一组属性可描述一个对象。
属性值：属性的数值或符号描述。
数据集：数据对象的集合。

2.属性类型

标称norminal：（1）
序数ordinal：（1）（2）
区间interval：（1）（2）（3）
比率ratio：（1）（2）（3）（4）

（1）相异性 = ≠

（2）序 < ≤ ＞≥

（3）加法 + -

（4）乘法 * /

3.数据集特征

维度Dimensionality：数据集中的对象具有的属性数目。
稀疏度Sparsity：出现的那些值有意义。
分辨率Resolution

4.数据集类型

记录Record（记录数据、数据矩阵、文档数据、事务数据）

图Graph（万维网、分子结构）
有序数据Ordered（空间数据、时间数据、序列数据、基因数据）

5.数据质量

噪声值Noise
离群值Outlier：和大多数数据对象明显不同的值
缺失值Missing：需要排除或者合理估计一个值
重复值Duplicate

6.数据预处理

（1）集成Aggregation：将两个或多个对象合并成单个对象。

（2）抽样Sampling：选择数据对象子集进行分析。

简单随机抽样（有放回、无放回）
分层抽样
渐进抽样

（3）降维Dimensionality Reduction：

（4）特征子集选择Feature Subset Selection

蛮力法
嵌入法
过滤法
包装方法

（5）特征创建Feature Creation

特征提取
映射数据到空间：傅里叶变换、小波变换
特征构造

（6）离散化和二元化Discretization&Binarization

二元化：二进制表示
离散化

（7）变量变换Attribute Transformation

简单函数
规范化或标准化：x' = ( x - x平均值) / Sx ；x平均值，Sx是属性值的标准差。

7.相似性和相异性（在0~1之间取值）

（1）变换：相似度和相异度的转换

（2）相异度（距离）

欧几里得距离（euclidean distance）：（n是维数，pk、qk分别是p、q的第k个属性值）
明可夫斯基距离（minkowski distance）：（r = 1时是汉明距离（曼哈顿距离）；r = 2时是欧几里得距离；r = ∞时，）
马氏距离（maahlanobis distance）：（∑^-1 是数据协方差矩阵的逆）

（3）二元数据的相似度

简单匹配系数（SMC）：SMC = 值匹配的属性个数 / 属性个数 = (M11 + M00) / (M01 + M10 + M11 + M00) （M11是x，y都取1的属性个数）
jaccard系数：J = 匹配个数 / 不涉及0-0匹配的属性个数 = (M11) / (M01 + M10 + M11)