数据挖掘2019.09.02

一·寻找数据
二·预处理
三·统计描述,知识挖掘
四·挖掘关联知识(客观事物特征状态的记录)
数据框
行:数据对象、
列:数据属性(特征)
包括:变量(自变量+反应变量=进行分析变量,进行关联分析),指标字段,特征,维度。
在这里插入图片描述
定量数据
研究对象指标(x)表现为有数字大小和单位的数据,又称计量数据。
连续性数据(continuous data)
如身高体重
不连续性数据(discrete data)
如疾病的复发次数,年龄,学习成绩等

定性数据(qualitative data)又称分类数据(categorical data)
1·变量值 表现为按照某属性划分的定性类型
2·分类数据的分层大于2时,又称多分类数据
定性数据类型有无序和有序
无序数据(nominal categorial)
二分类:如性别
多分类,血型等
有序数据(ordinal categorial)
如肿瘤的分级,疼痛的程度

预处理数据的任务
数据清理-----------缺失值,噪声
数据集成-----------数据集成,数据格式统一
数据变换-----------规范化和聚集
数据归约-----------数据集的压缩表示

数据类型转换
定量数据-----切割值法转换为(不可逆)------定性或等级数据
①以正常参考值或临床诊断标准分组
②根据均数或四分位将数据分成2,4组
③分布特点和研究需要

数据的预处理
遗漏值
原因 信息未找到 属性不能用于所有对象
解决方法
①删除数据对象,属性
②估计遗漏值
③在分析中忽略遗漏值
噪声
随机误差------抽样引起-------不可变
系统误差------方法不同-------可控
过失误差------研究者操作失误------清除
去噪
①分组 箱线图
②聚类
③回归

箱线图:
离群值(outliner)
与p25或p75的距离 四分位数间距IQR的1.5-3倍。
极端值(extreme value)
与p25或p75的距离 四分位数间距IQR的3.0倍以上。
离群点

数据的集成:
将多个数据中的数据整合到一个一致的储存中。
模式集成:
整合不同数据源中的元数据
实体识别问题:匹配来自不同数据源的现实世界的实体,比如
检测并解决数据值的冲突
对现实世界中的同意实体,来自不同数据源的属性值可能不同
可能原因;不同的数据表示,不同的度量等
合并重复数据

数据变换
将数据储存成规范的表格形式
数据的转换------数据规范化
偏态分布资料数据的转换
对数变换,倒数变换,最小-最大规范化,z-score规范化等。
数据转换的目的:
①使偏态分布接近正态分布。
②将数据按比例缩放,使之落入一个小的特定区间。

数据规约策略
数据仓库中往往存在有海量的数据,在其上进行复杂的数据分析与挖掘需要很长的时间。
数据规约
可以用来得到数据集的规约表示,它小的多,但可以产生相同的(或几乎相同的)分析结果。

    特征提取,特征选择--------------压缩数据
    通过选择替代的,较小的数据表示形式来减少数据量

一 数值规约
有参方法:使用一个参数模型估计数据,最后只要储存参数即可。
①线性回归方法:y=a+bx
②多元回归:线性回归的扩充
③对数线性模型:近似离线的多维数据概率分布
无参方法:
①直方图(倒数变换)
②聚类
二 纬度规约
①主成分分析(principal components analysis,PCA)

直方图
流行的数据规约技术
将某属性的数据划分为不相交的子集,统计不同值/区间的出现频率
划分规则,等宽或等深。

聚类
将数据集划分成聚类,然后通过聚类来表达数据集
如果数据可以组成各种不同的聚类,则该技术非常有效,反之如果数据界限模糊,则方法无效。
数据可以分层聚类,并被储存在多层索引数中 聚类的定义和算法都有很多选择。
在数据规约时,用数据的簇代表替换实际数据。
对于被污染的数据,能够组织成不同的簇的数据,该技术有效的多。

1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值