- 博客(7)
- 收藏
- 关注
原创 kNN方法R实现
参考资料:1、基于肖凯大牛的博客2、R IN A NUTSHELL3、DATA MINING WITH R############################ 翻译开始 ############################《R IN A NUTSHELL》与回归类似,线性方法对于分类计算时存在一些问题。下面介绍几个ML的分类算法K近邻
2013-04-23 23:30:16 8307
原创 关联规则R语言实现
文章参考资料:xccd:肖凯大牛的博文《Rdatamining》《R IN A NUTSHELL》注:如有疑惑的问题,参阅下文的预备知识!关联分析的挖掘任务可分解为两个步骤:一是发现频繁项集,二是从频繁项集中产生规则。############################ 关联分析 案例实践 ##############
2013-04-22 20:30:31 10067
原创 caret包处理流程
caret包可以处理至少以下事情.1、初步筛选属性(过滤以下属性)a、找出 属性值接近为常数的 属性 nearZeroVarb、找出 相关系数最大的 属性 findCorrelationc、找出 多重共线性的 属性 findLinearCombos2、处理缺失值 preProcess(data, method=c("bagImput
2013-04-21 20:21:32 5257
原创 caret包函数不完全解析
参考:xccd ,肖凯大牛的博客########## caret 包总结 ###########使用caret::mdrr1、降维a)删除的变量是常数自变量,或者是方差极小的自变量:nearZeroVar:诊断预测变量是唯一值(即0方差自变量)nearZeroVar(x, freqCut = 95/5, uniqueCut = 10, saveMetrics = F
2013-04-21 20:19:08 3690
原创 基于决策树的模型
参考:xccd ,肖凯大牛的博客本文为学习贴# 几种决策树 效果比较# 问题描述数据集是C50包中自带的churn数据,它是用来预测顾客流失的数据集,其中样本量为3333个,变量数为20个,数据不均衡,没有缺失值因为分类变量churn[yes,no] 不均衡:采用k折交叉验证方法library(C50)library(rpart)li
2013-04-21 20:14:30 2223
原创 R语言之聚类
利用轮廓系数判断k均值聚类的个数1、kmeans聚类处理的数据必须是数值型numeric,并且必须是matrxi或者data frame2、轮廓系数可以使用 fpc包3、聚类效果没有特殊的评价标准,聚类的个数可以采用这个来判定。4、聚类个数的其它方法 亦可采用分层聚类方法,从图形结果划分的类别hclust(见最后)libr
2013-04-21 20:10:59 4135 2
原创 主成分分析和因子分析总结(总结笔记)
注:本文是《从数据到结论》的读书心得,希望没有曲解原书之意正文开始一、作用 万事万物中,事物的属性之间可能存在着相关性。寻找多变量的”代表”。1、 降低变量的维数2、 主成本分析(principal analysis)是因子分析(factoranalysis)特例。 主成分分析二、问题抛出 现有100个高中学生
2012-02-10 08:01:08 11056
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人