智能信息导论之数据处理

数据清理

忽略元祖,

忽略属性列,缺失值太多

人工填写缺失值

自动填充缺失值,用平均值或回归分析,决策树,推理树填充

处理噪音:

分箱:将数据分到几个箱子,每个箱子单独处理

聚类

回归化

把数值转换到某个范围

1.最大最小规范化
v = v − min ⁡ a m a x a − min ⁡ b v=\frac{v-\min_a}{max_a-\min_b} v=maxaminbvmina

2.中心距离处以发散度
Z-zero score规范化

3.小数定标规范化
v = v 1 0 j v=\frac{v}{10^j} v=10jvj是使得max(|v|)<1的最小整数

数据离散化:

把0-11岁划分为婴儿,12~20为青年
先聚类再划分

减少数据量

抽样
小波变换,pca
SVD奇异值分解

特征选择

向前选择,每次选择最好的放在一个新数组
向后删除,每次选个最差的删掉

FCBF 特征选择算法

输入数据集 和 目标特征c 阈值
第一步计算每个特征和目标特征的相关性 S U k c SU_{kc} SUkc
大于阈值,则选择该特征,得到新的特征数组

第二步使得数据离散化,特征相互之间相互关系不大,只与目标特征相关关系大
即把所有 S U k j &gt; S U k c SU_{kj}&gt;SU_{kc} SUkj>SUkc的特征都删掉,即当检测到特征k和特征j他们之间相关性很大的时候就去掉他们,保证选到的特征相互之间的关系步大

ordinal顺序关系(低温和高温,学生成绩中和优之间)
不相似度 d = ∣ x − y ∣ / ( n − 1 ) d=|x-y|/(n-1) d=xy/(n1)
nominal(颜色之间)

idea>stategy>method>algorithm>programming
条件信息熵
SMC simple matching coefficient

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值