三疯_数据分析-CSDN博客

原创 kNN方法R实现

参考资料：1、基于肖凯大牛的博客2、R IN A NUTSHELL3、DATA MINING WITH R############################ 翻译开始 ############################《R IN A NUTSHELL》与回归类似，线性方法对于分类计算时存在一些问题。下面介绍几个ML的分类算法K近邻

2013-04-23 23:30:16 8307

原创关联规则R语言实现

文章参考资料：xccd:肖凯大牛的博文《Rdatamining》《R IN A NUTSHELL》注:如有疑惑的问题,参阅下文的预备知识！关联分析的挖掘任务可分解为两个步骤：一是发现频繁项集，二是从频繁项集中产生规则。############################ 关联分析案例实践 ##############

2013-04-22 20:30:31 10067

原创 caret包处理流程

caret包可以处理至少以下事情.1、初步筛选属性(过滤以下属性)a、找出属性值接近为常数的属性 nearZeroVarb、找出相关系数最大的属性 findCorrelationc、找出多重共线性的属性 findLinearCombos2、处理缺失值 preProcess(data, method=c("bagImput

2013-04-21 20:21:32 5257

原创 caret包函数不完全解析

参考：xccd ，肖凯大牛的博客########## caret 包总结 ###########使用caret::mdrr1、降维a)删除的变量是常数自变量，或者是方差极小的自变量:nearZeroVar:诊断预测变量是唯一值(即0方差自变量)nearZeroVar(x, freqCut = 95/5, uniqueCut = 10, saveMetrics = F

2013-04-21 20:19:08 3690

原创基于决策树的模型

参考：xccd ，肖凯大牛的博客本文为学习贴# 几种决策树效果比较# 问题描述数据集是C50包中自带的churn数据，它是用来预测顾客流失的数据集，其中样本量为3333个，变量数为20个，数据不均衡，没有缺失值因为分类变量churn[yes，no] 不均衡：采用k折交叉验证方法library(C50)library(rpart)li

2013-04-21 20:14:30 2223

原创 R语言之聚类

利用轮廓系数判断k均值聚类的个数1、kmeans聚类处理的数据必须是数值型numeric，并且必须是matrxi或者data frame2、轮廓系数可以使用 fpc包3、聚类效果没有特殊的评价标准,聚类的个数可以采用这个来判定。4、聚类个数的其它方法亦可采用分层聚类方法,从图形结果划分的类别hclust（见最后）libr

2013-04-21 20:10:59 4135 2

原创主成分分析和因子分析总结(总结笔记)

注：本文是《从数据到结论》的读书心得，希望没有曲解原书之意正文开始一、作用万事万物中，事物的属性之间可能存在着相关性。寻找多变量的”代表”。1、降低变量的维数2、主成本分析(principal analysis)是因子分析(factoranalysis)特例。主成分分析二、问题抛出现有100个高中学生

2012-02-10 08:01:08 11056

wolfbloodbj的专栏