一·寻找数据
二·预处理
三·统计描述,知识挖掘
四·挖掘关联知识(客观事物特征状态的记录)
数据框
行:数据对象、
列:数据属性(特征)
包括:变量(自变量+反应变量=进行分析变量,进行关联分析),指标字段,特征,维度。
定量数据
研究对象指标(x)表现为有数字大小和单位的数据,又称计量数据。
连续性数据(continuous data)
如身高体重
不连续性数据(discrete data)
如疾病的复发次数,年龄,学习成绩等
定性数据(qualitative data)又称分类数据(categorical data)
1·变量值 表现为按照某属性划分的定性类型
2·分类数据的分层大于2时,又称多分类数据
定性数据类型有无序和有序
无序数据(nominal categorial)
二分类:如性别
多分类,血型等
有序数据(ordinal categorial)
如肿瘤的分级,疼痛的程度
预处理数据的任务
数据清理-----------缺失值,噪声
数据集成-----------数据集成,数据格式统一
数据变换-----------规范化和聚集
数据归约-----------数据集的压缩表示
数据类型转换
定量数据-----切割值法转换为(不可逆)------定性或等级数据
①以正常参考值或临床诊断标准分组
②根据均数或四分位将数据分成2,4组
③分布特点和研究需要
数据的预处理
遗漏值
原因 信息未找到 属性不能用于所有对象
解决方法
①删除数据对象,属性
②估计遗漏值
③在分析中忽略遗漏值
噪声
随机误差------抽样引起-------不可变
系统误差------方法不同-------可控
过失误差------研究者操作失误------清除
去噪
①分组 箱线图
②聚类
③回归
箱线图:
离群值(outliner)
与p25或p75的距离 四分位数间距IQR的1.5-3倍。
极端值(extreme value)
与p25或p75的距离 四分位数间距IQR的3.0倍以上。
离群点
数据的集成:
将多个数据中的数据整合到一个一致的储存中。
模式集成:
整合不同数据源中的元数据
实体识别问题:匹配来自不同数据源的现实世界的实体,比如
检测并解决数据值的冲突
对现实世界中的同意实体,来自不同数据源的属性值可能不同
可能原因;不同的数据表示,不同的度量等
合并重复数据
数据变换
将数据储存成规范的表格形式
数据的转换------数据规范化
偏态分布资料数据的转换
对数变换,倒数变换,最小-最大规范化,z-score规范化等。
数据转换的目的:
①使偏态分布接近正态分布。
②将数据按比例缩放,使之落入一个小的特定区间。
数据规约策略
数据仓库中往往存在有海量的数据,在其上进行复杂的数据分析与挖掘需要很长的时间。
数据规约
可以用来得到数据集的规约表示,它小的多,但可以产生相同的(或几乎相同的)分析结果。
特征提取,特征选择--------------压缩数据
通过选择替代的,较小的数据表示形式来减少数据量
一 数值规约
有参方法:使用一个参数模型估计数据,最后只要储存参数即可。
①线性回归方法:y=a+bx
②多元回归:线性回归的扩充
③对数线性模型:近似离线的多维数据概率分布
无参方法:
①直方图(倒数变换)
②聚类
二 纬度规约
①主成分分析(principal components analysis,PCA)
直方图
流行的数据规约技术
将某属性的数据划分为不相交的子集,统计不同值/区间的出现频率
划分规则,等宽或等深。
聚类
将数据集划分成聚类,然后通过聚类来表达数据集
如果数据可以组成各种不同的聚类,则该技术非常有效,反之如果数据界限模糊,则方法无效。
数据可以分层聚类,并被储存在多层索引数中 聚类的定义和算法都有很多选择。
在数据规约时,用数据的簇代表替换实际数据。
对于被污染的数据,能够组织成不同的簇的数据,该技术有效的多。