数据挖掘2019.09.02

最新推荐文章于 2021-01-19 15:39:58 发布

l*b*q:)

最新推荐文章于 2021-01-19 15:39:58 发布

阅读量286

点赞数

分类专栏：数据挖掘笔记

本文链接：https://blog.csdn.net/weixin_45482415/article/details/100320522

版权

数据挖掘笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

一·寻找数据
二·预处理
三·统计描述，知识挖掘
四·挖掘关联知识（客观事物特征状态的记录）
数据框
行：数据对象、
列：数据属性（特征）
包括：变量（自变量+反应变量=进行分析变量，进行关联分析），指标字段，特征，维度。
在这里插入图片描述
定量数据
研究对象指标（x）表现为有数字大小和单位的数据，又称计量数据。
连续性数据（continuous data）
如身高体重
不连续性数据（discrete data）
如疾病的复发次数，年龄，学习成绩等

定性数据（qualitative data）又称分类数据（categorical data）
1·变量值表现为按照某属性划分的定性类型
2·分类数据的分层大于2时，又称多分类数据
定性数据类型有无序和有序
无序数据（nominal categorial）
二分类：如性别
多分类，血型等
有序数据（ordinal categorial）
如肿瘤的分级，疼痛的程度

预处理数据的任务
数据清理-----------缺失值，噪声
数据集成-----------数据集成，数据格式统一
数据变换-----------规范化和聚集
数据归约-----------数据集的压缩表示

数据类型转换
定量数据-----切割值法转换为（不可逆）------定性或等级数据
①以正常参考值或临床诊断标准分组
②根据均数或四分位将数据分成2，4组
③分布特点和研究需要

数据的预处理
遗漏值
原因信息未找到属性不能用于所有对象
解决方法
①删除数据对象，属性
②估计遗漏值
③在分析中忽略遗漏值
噪声
随机误差------抽样引起-------不可变
系统误差------方法不同-------可控
过失误差------研究者操作失误------清除
去噪
①分组箱线图
②聚类
③回归

箱线图：
离群值（outliner)
与p25或p75的距离四分位数间距IQR的1.5-3倍。
极端值（extreme value）
与p25或p75的距离四分位数间距IQR的3.0倍以上。
离群点

数据的集成：
将多个数据中的数据整合到一个一致的储存中。
模式集成：
整合不同数据源中的元数据
实体识别问题：匹配来自不同数据源的现实世界的实体，比如
检测并解决数据值的冲突
对现实世界中的同意实体，来自不同数据源的属性值可能不同
可能原因;不同的数据表示，不同的度量等
合并重复数据

数据变换
将数据储存成规范的表格形式
数据的转换------数据规范化
偏态分布资料数据的转换
对数变换，倒数变换，最小-最大规范化，z-score规范化等。
数据转换的目的：
①使偏态分布接近正态分布。
②将数据按比例缩放，使之落入一个小的特定区间。

数据规约策略
数据仓库中往往存在有海量的数据，在其上进行复杂的数据分析与挖掘需要很长的时间。
数据规约
可以用来得到数据集的规约表示，它小的多，但可以产生相同的（或几乎相同的)分析结果。

    特征提取，特征选择--------------压缩数据
    通过选择替代的，较小的数据表示形式来减少数据量

一数值规约
有参方法:使用一个参数模型估计数据，最后只要储存参数即可。
①线性回归方法：y=a+bx
②多元回归：线性回归的扩充
③对数线性模型：近似离线的多维数据概率分布
无参方法：
①直方图（倒数变换）
②聚类
二纬度规约
①主成分分析（principal components analysis,PCA）

直方图
流行的数据规约技术
将某属性的数据划分为不相交的子集，统计不同值/区间的出现频率
划分规则，等宽或等深。

聚类
将数据集划分成聚类，然后通过聚类来表达数据集
如果数据可以组成各种不同的聚类，则该技术非常有效，反之如果数据界限模糊，则方法无效。
数据可以分层聚类，并被储存在多层索引数中聚类的定义和算法都有很多选择。
在数据规约时，用数据的簇代表替换实际数据。
对于被污染的数据，能够组织成不同的簇的数据，该技术有效的多。