R | Processing
文章平均质量分 62
肥萝卜使大力
这个作者很懒,什么都没留下…
展开
-
使用R进行数据可视化套路之-多重散点图、连接Mysql获取数据
代码library(RODBC)channel <- odbcConnect('db_name', uid='user_name', pwd='user_password') #连接数据源s_d <- sqlQuery(channel, "SELECT t, s, d FROM table_1) #获取数据length <- dim(s_d)[1] #数据组个数plot(c原创 2013-10-27 17:53:11 · 3160 阅读 · 0 评论 -
使用R完成均值检验
t检验和Z检验都可用于均值检验。单样本均值检验当样本容量小于30时使用t检验,当样本容量大于30时使用Z检验Z检验使用例子:library(UsingR)x<-rnorm(50,0,5)simple.z.test(x,5)运行结果:[1] -2.947929 3.250022结果说明在置信度为95%的情况下总体的均值区间为[-2.947929 3.250022]原创 2014-04-13 15:17:07 · 17974 阅读 · 0 评论 -
使用R完成正太分布检验
什么是正太分布检验?判断一样本所代表的背景总体与理论正态分布是否没有显著差异的检验。方法一 概率密度曲线比较法看样本与正太分布概率密度曲线的拟合程度,R代码如下:norm_expression <- function(x) (1/sqrt(2*pi))*exp(-0.5*x^2)#curve(norm_expression, -4, 4, col="red") #标准正原创 2014-04-12 18:28:42 · 22629 阅读 · 1 评论 -
使用R完成逻辑斯蒂回归分类
直接上代码,如下:data_sample <- iris[51:150,];m <- dim(data_sample)[1] #获取数据集记录条数val <- sample(m, size =round(m/3), replace = FALSE, prob= rep(1/m, m)) #抽样,选取三分之二的数据作为训练集。 iris.learn <- data_sample[-v原创 2014-04-09 01:58:07 · 14594 阅读 · 1 评论 -
使用R完成Kmeans聚类
使用R完成Kmeans聚类需要调用kmeans方法,使用数据集iris完成一个小的聚类实验,代码如下:newiris <- iris;newiris$Species <- NULL; #对训练数据去掉分类标记kc <- kmeans(newiris, 3); #分类模型训练fitted(kc); #查看具体分类情况table(iris$Species, kc$cluster);原创 2014-04-07 18:42:12 · 65184 阅读 · 0 评论 -
使用R完成朴素贝叶斯分类
想和数据挖掘沾点边,所以最近在复习一些算法,因为又学了点R,深感这是个统计分析挖掘的利器,所以想用R实现一些挖掘算法。朴素贝叶斯法大概是最简单的一种挖掘算法了,《统计学习方法》在第四章做了很详细的叙述,无非是对于输入特征x,利用通过学习得到的模型计算后验概率分布,将后验概率最大的分类作为输出。根据贝叶斯定理,后验概率P(Y=cx | X=x) = 条件概率P(X=x | Y=cx) *原创 2014-04-06 17:11:42 · 14311 阅读 · 0 评论 -
使用R完成K近邻分类
使用数据集iris, 验证Petal.Length, Petal.Width两个特征的分类能力。代码如下:with(iris, plot(Petal.Length, Petal.Width, col=as.integer(Species)))text(2.2, 0.3, "setosa")text(3.0, 1.3, "versicolor")text(6.5, 1.7, "virgin原创 2014-04-06 20:50:23 · 7365 阅读 · 1 评论 -
使用R完成决策树分类
关于决策树理论方面的介绍,李航的《统计机器学习》第五章有很好的讲解。传统的ID3和C4.5一般用于分类问题,其中ID3使用信息增益进行特征选择,即递归的选择分类能力最强的特征对数据进行分割,C4.5唯一不同的是使用信息增益比进行特征选择。特征A对训练数据D的信息增益g(D, A) = 集合D的经验熵H(D) - 特征A给定情况下D的经验条件熵H(D|A)特征A对训练数据D的信息增益比r原创 2014-04-06 16:14:50 · 49171 阅读 · 0 评论 -
linux系统安装R\RHive
安装R1 下载R安装包wget http://ftp.ctex.org/mirrors/CRAN/src/base/R-2/R-2.15.0.tar.gz .2 安装R./configure --with-readline=yes --with-x=yes --enable-R-shlib --prefix /home/work/R(--prefix是关键,R是自建文件夹)原创 2014-03-19 22:51:14 · 4927 阅读 · 0 评论 -
使用R完成字符串的子字符串频率统计
整理自统计之都论坛方法一 使用strsplit函数a <- "aggcacggaaaaacgggaataacggaggaggacttggcacggcattacacggagg"b <- strsplit(as.character(a),"ag")length(b[[1]]) - 1 ##子字符串"ag"的出现个数方法二 使用正则式函数a <- "aggcacgg原创 2014-04-29 23:05:19 · 19487 阅读 · 0 评论 -
R语言:常用统计检验方法
正态总体均值的假设检验t检验单个总体例一 某种元件的寿命X(小时),服从正态分布,N(mu,sigma^2),其中mu,sigma^2均未知,16只元件的寿命如下:问是否有理由认为元件的平均寿命大于255小时。命令:X222, 362, 168, 250, 149, 260, 485, 170)t.test(X, alternative = "greater", m转载 2014-04-13 16:04:00 · 9531 阅读 · 0 评论 -
使用R进行多元时序指标趋势可视化
数据时代,经常需要将多种时序数据指标放在一起进行分析,但各个数据指标量级不一致,不方便放在一张趋势图中进行分析,解决方法是把各个指标数据归一化,对于时序数据[x1, x2...xn],可以使用归一化规则为xn = xn*100/avg(x)。之前在某社交网络公司,对于feed流,需要对pv, click, reply, share, like等指标进行趋势分析,使用的解决方案是使用py原创 2014-03-15 21:49:40 · 5820 阅读 · 0 评论 -
Processing初探-基本用法、简单动画
读《数据可视化之美》时看到编程语言Processing这么个东西,于是下载过来简单使用了下。下载地址:http://processing.org/download/ 。免费的,屌丝可以选择不捐钱下载,绿色软件,下载完后直接解压即可使用。下面是一个的时钟动画的例子,代码如下://setup 函数用于初始化,由 Processing 运行时执行一次。void setup()原创 2013-10-29 19:40:58 · 20463 阅读 · 0 评论 -
使用R进行数据可视化套路之-茎叶图、盒形图
代码#茎叶图library(DAAG)with(ais, stem(ht[sport=="Row"])) #图1#盒形图with(fossum, boxplot(totlngth, main="使用boxplot函数绘制垂直盒形图", ylab="总长度", xlab="")) #图2with(fossum, boxplot(totlngth, main="使用boxplot原创 2013-10-27 15:26:33 · 8756 阅读 · 0 评论 -
使用R进行数据可视化套路之-条形图、Cleveland点图、矩阵
代码gdp=matrix(c(450, 500, 700, 800, 1500, 1600), nrow=2, byrow=T) #构造数据矩阵rownames(gdp) = c('China', 'USA') #矩阵行命名colnames(gdp) = c('2002', '2004', '2006') #矩阵列命名par(fig=c(0, 0.5, 0.4, 1))barpl原创 2013-10-27 17:01:30 · 6138 阅读 · 0 评论 -
使用R进行数据可视化套路之-直方图
示例代码library(DAAG)attach(fossum)par(mfrow = c(1,3))hist(totlngth, breaks = 72.5 + (0:5) * 5, ylim = c(0, 22), xlab="Total length (cm)", main ="A: Breaks at 72.5, 77.5, ...")dens <- density(tot原创 2013-10-27 14:28:43 · 7459 阅读 · 0 评论 -
使用R进行数据可视化套路之-散点图、图形分隔、时间序列
代码## Panel Apar(fig=c(0, 1, .45, 1)) #图像设备分割plot(log10(measles), xlab="时间", ylab=" Deaths; Population (log scale)", ylim=log10 (c(1,5000*1000)), yaxt="n")ytiks <- c(1, 10, 100, 1000, 1000000,原创 2013-10-27 16:08:33 · 7061 阅读 · 1 评论 -
记一次R的可视化使用-生成城市各个景点的多边形图
项目中需要用到全国各个城市的景点坐标范围,需要人工审核各个景点的数据正确性和各个景点之间的距离分布。首先想到的就是使用R绘制每个景点的多边形区域。首先通过python,根据数据生成R绘图代码,当然这里的R绘图代码非常简单,利用原始数据拼接成R代码才是耗费工作量最大的工作,具体过程比较繁琐,此处略去。生成的R绘图代码示例如下:pdf("嘉兴.png");png(file="嘉兴原创 2014-06-16 15:50:35 · 2041 阅读 · 0 评论