2014年04月_肥萝卜使大力

原创使用R完成字符串的子字符串频率统计

整理自统计之都论坛方法一使用strsplit函数a <- "aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg"b <- strsplit(as.character(a),"ag")length(b[[1]]) - 1 ##子字符串"ag"的出现个数方法二使用正则式函数a <- "aggcacgg

2014-04-29 23:05:19 19487

转载 R语言：常用统计检验方法

正态总体均值的假设检验t检验单个总体例一某种元件的寿命X（小时），服从正态分布，N（mu,sigma^2），其中mu,sigma^2均未知，16只元件的寿命如下：问是否有理由认为元件的平均寿命大于255小时。命令：X222, 362, 168, 250, 149, 260, 485, 170)t.test(X, alternative = "greater", m

2014-04-13 16:04:00 9530

原创使用R完成均值检验

t检验和Z检验都可用于均值检验。单样本均值检验当样本容量小于30时使用t检验，当样本容量大于30时使用Z检验Z检验使用例子:library(UsingR)x<-rnorm(50,0,5)simple.z.test(x,5)运行结果:[1] -2.947929 3.250022结果说明在置信度为95%的情况下总体的均值区间为[-2.947929 3.250022]

2014-04-13 15:17:07 17970

原创使用R完成正太分布检验

什么是正太分布检验？判断一样本所代表的背景总体与理论正态分布是否没有显著差异的检验。方法一概率密度曲线比较法看样本与正太分布概率密度曲线的拟合程度，R代码如下：norm_expression <- function(x) (1/sqrt(2*pi))*exp(-0.5*x^2)#curve(norm_expression, -4, 4, col="red") #标准正

2014-04-12 18:28:42 22628 1

原创使用R完成逻辑斯蒂回归分类

直接上代码，如下：data_sample <- iris[51:150,];m <- dim(data_sample)[1] #获取数据集记录条数val <- sample(m, size =round(m/3), replace = FALSE, prob= rep(1/m, m)) #抽样，选取三分之二的数据作为训练集。 iris.learn <- data_sample[-v

2014-04-09 01:58:07 14594 1

原创使用R完成Kmeans聚类

使用R完成Kmeans聚类需要调用kmeans方法，使用数据集iris完成一个小的聚类实验，代码如下：newiris <- iris;newiris$Species <- NULL; #对训练数据去掉分类标记kc <- kmeans(newiris, 3); #分类模型训练fitted(kc); #查看具体分类情况table(iris$Species, kc$cluster);

2014-04-07 18:42:12 65183

原创使用R完成K近邻分类

使用数据集iris，验证Petal.Length, Petal.Width两个特征的分类能力。代码如下：with(iris, plot(Petal.Length, Petal.Width, col=as.integer(Species)))text(2.2, 0.3, "setosa")text(3.0, 1.3, "versicolor")text(6.5, 1.7, "virgin

2014-04-06 20:50:23 7363 1

原创使用R完成朴素贝叶斯分类

想和数据挖掘沾点边，所以最近在复习一些算法，因为又学了点R，深感这是个统计分析挖掘的利器，所以想用R实现一些挖掘算法。朴素贝叶斯法大概是最简单的一种挖掘算法了，《统计学习方法》在第四章做了很详细的叙述，无非是对于输入特征x，利用通过学习得到的模型计算后验概率分布，将后验概率最大的分类作为输出。根据贝叶斯定理，后验概率P(Y=cx | X=x) = 条件概率P(X=x | Y=cx) *

2014-04-06 17:11:42 14309

原创使用R完成决策树分类

关于决策树理论方面的介绍，李航的《统计机器学习》第五章有很好的讲解。传统的ID3和C4.5一般用于分类问题，其中ID3使用信息增益进行特征选择，即递归的选择分类能力最强的特征对数据进行分割，C4.5唯一不同的是使用信息增益比进行特征选择。特征A对训练数据D的信息增益g(D, A) = 集合D的经验熵H(D) - 特征A给定情况下D的经验条件熵H(D|A)特征A对训练数据D的信息增益比r

2014-04-06 16:14:50 49170

不是码农