R语言
文章平均质量分 76
三疯_数据分析
这个作者很懒,什么都没留下…
展开
-
关联规则R语言实现
文章参考资料:xccd:肖凯大牛的博文《Rdatamining》《R IN A NUTSHELL》注:如有疑惑的问题,参阅下文的预备知识!关联分析的挖掘任务可分解为两个步骤:一是发现频繁项集,二是从频繁项集中产生规则。############################ 关联分析 案例实践 ##############原创 2013-04-22 20:30:31 · 10049 阅读 · 0 评论 -
kNN方法R实现
参考资料:1、基于肖凯大牛的博客2、R IN A NUTSHELL3、DATA MINING WITH R############################ 翻译开始 ############################《R IN A NUTSHELL》与回归类似,线性方法对于分类计算时存在一些问题。下面介绍几个ML的分类算法K近邻原创 2013-04-23 23:30:16 · 8296 阅读 · 0 评论 -
caret包处理流程
caret包可以处理至少以下事情.1、初步筛选属性(过滤以下属性)a、找出 属性值接近为常数的 属性 nearZeroVarb、找出 相关系数最大的 属性 findCorrelationc、找出 多重共线性的 属性 findLinearCombos2、处理缺失值 preProcess(data, method=c("bagImput原创 2013-04-21 20:21:32 · 5249 阅读 · 0 评论 -
caret包函数不完全解析
参考:xccd ,肖凯大牛的博客########## caret 包总结 ###########使用caret::mdrr1、降维a)删除的变量是常数自变量,或者是方差极小的自变量:nearZeroVar:诊断预测变量是唯一值(即0方差自变量)nearZeroVar(x, freqCut = 95/5, uniqueCut = 10, saveMetrics = F原创 2013-04-21 20:19:08 · 3684 阅读 · 0 评论 -
R语言之聚类
利用轮廓系数判断k均值聚类的个数1、kmeans聚类处理的数据必须是数值型numeric,并且必须是matrxi或者data frame2、轮廓系数可以使用 fpc包3、聚类效果没有特殊的评价标准,聚类的个数可以采用这个来判定。4、聚类个数的其它方法 亦可采用分层聚类方法,从图形结果划分的类别hclust(见最后)libr原创 2013-04-21 20:10:59 · 4122 阅读 · 2 评论 -
基于决策树的模型
参考:xccd ,肖凯大牛的博客本文为学习贴# 几种决策树 效果比较# 问题描述数据集是C50包中自带的churn数据,它是用来预测顾客流失的数据集,其中样本量为3333个,变量数为20个,数据不均衡,没有缺失值因为分类变量churn[yes,no] 不均衡:采用k折交叉验证方法library(C50)library(rpart)li原创 2013-04-21 20:14:30 · 2204 阅读 · 0 评论