数据挖掘第一、二章——绪论、数据

一、绪论

1.什么是数据挖掘

  • 从大量数据中非平凡地提取隐含的、未知的、有潜在价值的有用信息

  • 自动化、半自动化地探索、分析大量数据,以求发现有意义的模式

2.数据挖掘任务

  • 预测任务(分类、回归...)
  • 描述任务(关联、聚类..)

3.预测建模:涉及以说明变量函数的方式为目标变量建立模型。有两类预测建模任务

  • 分类:用于预测离散的目标变量
  • 回归:用于预测连续的目标变量

4.关联分析:用来发现描述数据中心强关联特征的模式。

5.聚类分析:发现紧密相关的观测值组群,使得与属于不同簇的观测值相比,属于同一簇的观测值相互之间尽可能类似。

6.异常检测:识别其特征显著不同于其他数据的观测值。(异常点or离群点)

7.流程

数据清洗 ==> 数据集成 ==> 数据挖掘 ==> 模式评估

二、数据

1.基本概念

  • 数据:数据对象和属性的集合。
  • 属性:对象的某种特质,一组属性可描述一个对象。
  • 属性值:属性的数值或符号描述。
  • 数据集:数据对象的集合。

2.属性类型

  • 标称norminal:(1)
  • 序数ordinal:(1)(2)
  • 区间interval:(1)(2)(3)
  • 比率ratio:(1)(2)(3)(4)

(1)相异性 = ≠

(2)序 < ≤ >≥

(3)加法 + -

(4)乘法 * /

3.数据集特征

  • 维度Dimensionality:数据集中的对象具有的属性数目。
  • 稀疏度Sparsity:出现的那些值有意义。
  • 分辨率Resolution

4.数据集类型

  • 记录Record(记录数据、数据矩阵、文档数据、事务数据)

 

  • 图Graph(万维网、分子结构)
  • 有序数据Ordered(空间数据、时间数据、序列数据、基因数据)

5.数据质量

  • 噪声值Noise
  • 离群值Outlier:和大多数数据对象明显不同的值
  • 缺失值Missing:需要排除或者合理估计一个值
  • 重复值Duplicate

6.数据预处理

(1)集成Aggregation:将两个或多个对象合并成单个对象。

(2)抽样Sampling:选择数据对象子集进行分析。

  • 简单随机抽样(有放回、无放回)
  • 分层抽样
  • 渐进抽样

(3)降维Dimensionality Reduction:

(4)特征子集选择Feature Subset Selection

  • 蛮力法
  • 嵌入法
  • 过滤法
  • 包装方法

(5)特征创建Feature Creation

  • 特征提取
  • 映射数据到空间:傅里叶变换、小波变换
  • 特征构造

(6)离散化和二元化Discretization&Binarization

  • 二元化:二进制表示
  • 离散化

(7)变量变换Attribute Transformation

  • 简单函数
  • 规范化或标准化:x' = ( x - x平均值) / Sx ;x平均值,Sx是属性值的标准差。

7.相似性和相异性(在0~1之间取值)

(1)变换:相似度和相异度的转换

 

 

 (2)相异度(距离)

  • 欧几里得距离(euclidean distance):(n是维数,pk、qk分别是p、q的第k个属性值)
  • 明可夫斯基距离(minkowski distance):(r = 1时是汉明距离(曼哈顿距离);r = 2时是欧几里得距离;r = ∞时,
  • 马氏距离(maahlanobis distance):(∑^-1 是数据协方差矩阵的逆)

(3)二元数据的相似度

  • 简单匹配系数(SMC):SMC = 值匹配的属性个数 / 属性个数 = (M11 + M00) / (M01 + M10 + M11 + M00) (M11是x,y都取1的属性个数)
  • jaccard系数:J = 匹配个数 / 不涉及0-0匹配的属性个数 = (M11) / (M01 + M10 + M11)

 

 (4)余弦相似度

(d1d2是向量,注意点积)

 

 

 (5)相关性

相关系数(需要先进行向量归一化):s(p,q)=p′.q′ (点乘)

(6)距离的特性

  • 正定性
  • 对称性
  • 满足三角不等式

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值