![](https://i-blog.csdnimg.cn/columns/default/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据挖掘笔记
l*b*q:)
这个作者很懒,什么都没留下…
展开
-
数据挖掘2019.09.02
一·寻找数据二·预处理三·统计描述,知识挖掘四·挖掘关联知识(客观事物特征状态的记录)数据框行:数据对象、列:数据属性(特征)包括:变量(自变量+反应变量=进行分析变量,进行关联分析),指标字段,特征,维度。...原创 2019-09-02 21:40:58 · 312 阅读 · 0 评论 -
数据挖掘 2019.09.4
PCA主成分分析原理 流程以及R中的实现。(一)分析原理① 数据降维降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。降维具有如下一些优点:使得数据集更易使用。降低算法的计算...原创 2019-09-10 14:59:22 · 415 阅读 · 0 评论 -
数据挖掘2019.9.9
数据的统计描述计量资料的统计描述及广义知识挖掘概念:即用少量几个统计指标对画出原始数据的特征称为统计描述。方法:①通过频数表描述数据特征(了解数据的分布特征)分布情况;偏态或正太分布取值情况:变量值取值范围集中趋势:变量值集中位置段组的频数作为概率的估计rnorm(100,mean=0,sd=1)#服从正态分布的随机数runif(100,min=0,max=1)#均匀分布随机数...原创 2019-09-09 20:29:58 · 3675 阅读 · 0 评论 -
数据挖掘2019.09.11(1)
分布特征与t ,u检验T检验是以t分布为理论基础,以t值作为统计量的假设检验方法,适用于倒数较少,来源于正态分布的资料。u检验是以标准正态分布为理论基础,以U值作为统计量的检验方法,适用于倒数较多的数值资料T U检验都可用于样本与总体比较,配对设计,两组随机的假设检验 。方差分析analysis of variance- ANOVA它把所有数据放在一起,一次比较就对所有各组间是否有差异...原创 2019-09-11 20:40:49 · 156 阅读 · 0 评论 -
数据挖掘2019.09.11(2)
分类资料的统计描述绝对数:表示在一定的条件下某事物发生的具体规模和绝对数量的多少。(发病例数),(死亡人数)绝对数的缺陷(不具有可比性)(不利于保密)克服手段:将基数化为相同的数值----相对数由两个有联系的指标之比组成,统称为相对数。常用相对数包括 率(rate),构成比(proportion),和相对比(ratio)...原创 2019-09-16 19:18:19 · 166 阅读 · 0 评论 -
数据挖掘2019.09.16
线性回归分析(Linear Regression)一·直线相关(linear correlation)是用于探讨两个变量间是否存在线性关系用于双变量正态分布资料相关分类正相关(positive correlation)负相关 (negetive correlation)相关系数(correlation coefficient)二·直线回归概念:两变量间存在某种内在联系,...原创 2019-09-16 20:15:36 · 138 阅读 · 0 评论