自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wolfbloodbj的专栏

专注于数据分析与数据挖掘以及由此展开的相关技术

  • 博客(7)
  • 收藏
  • 关注

原创 kNN方法R实现

参考资料:1、基于肖凯大牛的博客2、R IN A NUTSHELL3、DATA MINING WITH R############################ 翻译开始 ############################《R IN A NUTSHELL》与回归类似,线性方法对于分类计算时存在一些问题。下面介绍几个ML的分类算法K近邻

2013-04-23 23:30:16 8307

原创 关联规则R语言实现

文章参考资料:xccd:肖凯大牛的博文《Rdatamining》《R IN A NUTSHELL》注:如有疑惑的问题,参阅下文的预备知识!关联分析的挖掘任务可分解为两个步骤:一是发现频繁项集,二是从频繁项集中产生规则。############################ 关联分析 案例实践 ##############

2013-04-22 20:30:31 10067

原创 caret包处理流程

caret包可以处理至少以下事情.1、初步筛选属性(过滤以下属性)a、找出 属性值接近为常数的 属性 nearZeroVarb、找出 相关系数最大的        属性 findCorrelationc、找出 多重共线性的           属性 findLinearCombos2、处理缺失值 preProcess(data, method=c("bagImput

2013-04-21 20:21:32 5257

原创 caret包函数不完全解析

参考:xccd ,肖凯大牛的博客########## caret 包总结 ###########使用caret::mdrr1、降维a)删除的变量是常数自变量,或者是方差极小的自变量:nearZeroVar:诊断预测变量是唯一值(即0方差自变量)nearZeroVar(x, freqCut = 95/5, uniqueCut = 10, saveMetrics = F

2013-04-21 20:19:08 3690

原创 基于决策树的模型

参考:xccd ,肖凯大牛的博客本文为学习贴# 几种决策树 效果比较# 问题描述数据集是C50包中自带的churn数据,它是用来预测顾客流失的数据集,其中样本量为3333个,变量数为20个,数据不均衡,没有缺失值因为分类变量churn[yes,no] 不均衡:采用k折交叉验证方法library(C50)library(rpart)li

2013-04-21 20:14:30 2223

原创 R语言之聚类

利用轮廓系数判断k均值聚类的个数1、kmeans聚类处理的数据必须是数值型numeric,并且必须是matrxi或者data frame2、轮廓系数可以使用 fpc包3、聚类效果没有特殊的评价标准,聚类的个数可以采用这个来判定。4、聚类个数的其它方法     亦可采用分层聚类方法,从图形结果划分的类别hclust(见最后)libr

2013-04-21 20:10:59 4135 2

原创 主成分分析和因子分析总结(总结笔记)

注:本文是《从数据到结论》的读书心得,希望没有曲解原书之意正文开始一、作用       万事万物中,事物的属性之间可能存在着相关性。寻找多变量的”代表”。1、        降低变量的维数2、        主成本分析(principal analysis)是因子分析(factoranalysis)特例。 主成分分析二、问题抛出       现有100个高中学生

2012-02-10 08:01:08 11056

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除