数据挖掘中的数据

数据挖掘中的数据

属性的类型

  • 分类的(定性的):标称、序数
  • 数值的(定量的):区间、比率

标称(=,≠

例如邮政编码、雇员ID、眼球颜色、性别

序数(>,<

例如矿石硬度、成绩、街道号码

区间(+,-

例如日历日期、摄氏或华氏温度

比率(×,÷

例如绝对温度、货币量、计数、年龄、质量、长度、电流

数据集

数据集的一般特性

  • 维度:数据集中对象具有的对象数目
  • 稀疏性
  • 分辨率

遗漏值

出现遗漏值的原因
  • 信息收集不全
  • 某些属性不能用于所有对象
处理遗漏值的策略
  • 删除数据对象或属性
  • 估计遗漏值
  • 在分析时忽略遗漏值

数据预处理

聚集

将两个或多个对象合并成单个对象
聚集是删除属性的过程,或压缩特定属性不同值个数的过程。

抽样

样本是具有代表性的
抽样方法:

  1. 简单随机抽样
    1. 无放回抽样
    2. 有放回抽样
  2. 分层抽样

维规约

  • 如果维度较低,许多数据挖掘算法的效果就会更好
  • 维规约可以使模型更容易理解
维灾难

随着数据维度的增加,许多数据分析变得非常困难,数据在它所占据的空间中越来越稀疏

相似度和相异性

简单属性的相似度和相异度

标称的

相异度

d={0,1,if x=yif x d = { 0 , if  x = y 1 , if  x ≠ y 

相似度

s={0,1,if x=yif x s = { 0 , if  x = y 1 , if  x ≠ y 

序数的

相似度

d=|xy|(n1) d = | x − y | ( n − 1 )

相似度

s=1d s = 1 − d

区间或比率的

相异度

d=|xy| d = | x − y |

相似度

s=d,s=11+d,s=ed,s=1ddmindmaxdmin s = − d , s = 1 1 + d , s = e − d , s = 1 − d − d m i n d m a x − d m i n

简单匹配系数

SMC=f11+f00f01+f10+f11+f00 S M C = f 11 + f 00 f 01 + f 10 + f 11 + f 00

Jaccard系数

J=f11f01+f10+f11 J = f 11 f 01 + f 10 + f 11

import numpy as np
import scipy.spatial.distance as dist

x = np.array([0, 0, 1, 1, 1])
y = np.array([0, 1, 0, 0, 1])

matv = np.array([x, y])
# print(matv)
ds = dist.pdist(matv, 'jaccard')
print(ds)

余弦相似度

cos(x,y)=xy||x||||y|| c o s ( x , y ) = x ⋅ y | | x | | ⋅ | | y | |

import numpy

x=numpy.array([3,20,3.5])
y=numpy.array([-3,34,7])

dist=numpy.dot(x,y)/((numpy.linalg.norm(x))*(numpy.linalg.norm(y)))

print(dist)

欧几里得距离

d(x,y)=i=1n(xiyi)2 d ( x , y ) = ∑ i = 1 n ( x i − y i ) 2

import numpy

x=numpy.array([3,20,3.5])
y=numpy.array([-3,34,7])

dist=numpy.sqrt(numpy.sum(numpy.square(x-y)))

print(dist)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值