![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
R
文章平均质量分 73
Ryan_Yang_
这个作者很懒,什么都没留下…
展开
-
【R语言学习笔记】初识(一)
针对R语言,网上很多书和教程都在学,也正在在这种背景下,每天记录一点点对于R的知识,一方面是记录,另一方面如果可以帮助到其他人那就更好了。当然现在的水平很低,基本上从幼儿园开始学起,但是还好今后有很多时间,每天学一点,说不定哪天就有了质的飞跃。之前看了《R in action》但是觉得还是稍微有点难懂,或者说没找到方法;对于一种语言,R和英语应该有相似的属性,学习的路径可能也类似;而作为一个工具,R原创 2017-03-29 11:16:18 · 917 阅读 · 0 评论 -
【R的机器学习】决策树性能提升
上一章用iris数据集进行了决策树分析,理论上来说,Kappa值是0.8991,已经非常高了,我们下面研究下方法,看看有没有什么优化空间。首先看C5.0的函数参数C5.0(x, y, trials = 1, rules= FALSE, weights = NULL, control = C5.0Control(), costs = NULL, ...)C5.0(y原创 2017-06-29 10:38:34 · 3606 阅读 · 0 评论 -
【R的机器学习】Apriori算法
首先关联规则很简单,但是数据的转化具有一定的复杂。先说关联规则,举个通俗的例子,也就是看很多东西之间的关联度,而这个关联度和数值层面的相关性类似,但是通常处理的是因子型或文本型数据。比如购物车的关联购买。比如很多人买了啤酒,然后又买了烟,从业务层面,我们希望卖酒的旁边就是卖烟的,这样能刺激相同用户购买。说到这,可以看到,关联规则是一个特殊的聚类,也就是探究人群购物的本质;但是这种聚类是纯粹的从商品层原创 2017-07-10 11:52:48 · 934 阅读 · 0 评论 -
【R的机器学习】模型性能提升探索:随机森林
基于上一节探索了调整决策树的参数进行优化,看到我们训练的模型具备更强的预测性:http://blog.csdn.net/yunru_yang/article/details/73873667但是迄今为止,我们仍然是在决策树这个模型中进行优化,正如如果我们想跳的更高,更改了很多训练方式,可是我们的弹跳力仍然属于人的范畴;而我们想要有更大的飞跃,则需要做一个螳螂,在黑客帝国中,Neo被训练的就是在母体中原创 2017-06-30 10:06:23 · 7888 阅读 · 0 评论 -
【R的机器学习】模型性能提升探索:朴素贝叶斯
本章强行带入朴素贝叶斯的算法进行分类。为什么说是强行,因为NB(朴素贝叶斯)算法其实不算是一个好的对于数值型分类的方法,一般应用的部分的特征值通常是因子型;举个例子,对于我们的iris数据集:head(iris_train) Sepal.Length Sepal.Width Petal.Length Petal.Width75 6.4 2.9原创 2017-07-03 09:46:12 · 912 阅读 · 0 评论 -
【R和Python对比】matplotlib和ggplot(一)
接下来几天对比下R和py的作图功能。R的ggplot可以说是各方面都很优秀的作图包,具有优雅的语法结构、多参数可变的调整和丰富的作图模式,然而ggplot学习起来较为复杂,而且在画图之前需要做一些繁琐的数据整形和处理工作,因为ggplot只接受长格式的数据,所以意味着需要把宽格式变长。同样的,python的画图工具也有这个问题,不过更多的是把长数据变成宽数据,这两个画图还真的是配呢。py的主要工具就原创 2017-07-13 11:47:29 · 6361 阅读 · 1 评论 -
【R的机器学习】模型性能提升探索:神经网络
网上有很多介绍神经网络原理的文章,本质上机器学习就是一个分类器;而神经网络是一个模拟神经元学习的高级分类器,当然,神经网络也是个黑箱模型。本章使用神经网络对之前的iris数据集再次进行预测。在学习神经网络的时候,常常在回想人类的学习过程;这是个比较有思辨意义的过程。人类从出生的时候,往往就是一张白纸,可以理解成什么都不懂。然后在小时候受到周围环境的影响和教育,比如父母告诉孩子,水如果冒烟了(沸腾),原创 2017-07-04 11:16:34 · 897 阅读 · 0 评论 -
【R的机器学习】模型性能提升探索:R的其他神经网络包-neuralnet
上一节简单说明了神经网络,这里对R中进行神经网络算法的其他函数做下具体说明。之前说到RSNNS包的神经网络,但是这个函数比较复杂,这里介绍下neuralnet包的神经网络。这个包中的神经网络建模有个缺陷,只能对数值型的变量进行回归。也就是默认是无法进行分类变量的建模的,比如我们的iris数据集:head(iris) Sepal.Length Sepal.Width Petal.Length Pe原创 2017-07-05 16:11:09 · 4954 阅读 · 0 评论 -
【R的机器学习】模型性能提升探索:支持向量机
这一章简单理解下大名鼎鼎的支持向量机,SVM;还是先举个栗子:有一条路把一片森林分开两块,左边是杨树,右边是松树,那么如果我们找一个分界线的话,当然就是这条路,这个是个很简单的分类方式;下一个场景: 我们坐直升飞机在山顶飞过,这时候山对我们来说就是个平面,看到下面有两种树:松树和杨树,假设我们往下看的时候,发现杨树都在最外面一圈,而松树都在里面那一圈,我们用什么方法把他们分隔开呢?当然可以说我们画原创 2017-07-06 10:24:29 · 703 阅读 · 0 评论 -
【R的机器学习】机器学习概述和决策树
在CSDN开通博客将近四个月,深深的感觉到了自己四个月的进化,从基本的代码操作,到数据整合,到统计画图,再到网络提取和机器学习,有一种浅浅的成就感。推荐两本书,第一本书偏向于通俗讲解,第二本书偏向于实例,分别是《机器学习与R语言》和《R语言与数据挖掘最佳实践和经典案例》,第一本书通俗易懂,适合没有基础的同学,比如我,第二本适合有了基础去进行案例分析的,可以先看第一本,然后在研究第二本。机器学习这个概原创 2017-06-28 11:45:47 · 1419 阅读 · 0 评论 -
【R的机器学习】聚类
现阶段,针对iris数据集,我们应用了决策树、随机森林、朴素贝叶斯、神经网络和SVM这些模型来拟合数据,虽然结果略有差异,但是可以说差异不大,效果也还是很理想,主要原因因为这个数据集的特征值比较显著;接下来,我们利用几类无监督学习的方式进行原始数据集的分类,也就是常说的聚类算法。1、kmeans聚类kmeans聚类是最简单的一类聚类方式,聚类方法是,先随机确认中心点,然后找和他距离最近的几个点,重原创 2017-07-07 11:14:18 · 1730 阅读 · 0 评论 -
【R和Python对比】matplotlib和ggplot(三)
不得不说,matplot感觉就是R中的plot,简单上手,但是扩展不足,而且偶然发现了python也有ggplot包,但是由于C++的问题无法安装,后续再研究下。先看下高级的散点图,类似R的:geom_point(aex(x,y),color=z)也就是说针对不同的种类进行颜色填充,依靠之前的说法,因为matplot图形做的事情很少,需要借助数据整形。而这个时候应用到了python的map函数,ma原创 2017-07-18 17:28:06 · 2850 阅读 · 0 评论 -
【R的网络提取】CSDN博客列表和url的提取
最近在读《基于R语言的自动数据收集》,在连续看了几天之后,手痒开始进行实践,这本书总体来说不错,推荐入坑。但是对于一个没有HTML/XML等网页基础的数据狗来说,理解这个原理有点复杂,好在书中和网上信息丰富,得以管中窥豹。、个人理解,初级的网络内容爬取,主要的原理和步骤很简单: 1. 理解网页的编写逻辑 2. 找到批量提取的机械路径 3. 根据提取目的编写提取函数先说第一点,这一点我觉得是非常原创 2017-05-18 11:37:35 · 4269 阅读 · 1 评论 -
【R的网络提取】什么值得买批量提取商品信息和价格等数据
由于电商行业经常需要对价格进行监控,而什么值得买本身就是一个比价网站,那么这个网站对很多电商具有一定的参考性;本文用R进行什么值得买的相关信息提取,针对这个信息,可以对商品走势进行详细分析;当然,另一个先分析这个网站的原因是该网站比较简单,逻辑相对清楚(尽管也不是很清楚)。下面开始;首先先观察这个网站的结构和源码,比如我搜索个空调,那么网址变成:http://search.smzdm.com/?c=原创 2017-05-25 11:43:22 · 1095 阅读 · 0 评论 -
【R语言学习笔记】初识(二)
今天继续上次的R-FAQ【23】R的工作目录默认R的目录在我的文档, 比如用getwd()进行目录确认,但是文中说用setwd()是会报错;网上查了一下,如果要更改需要使用全部的目录,如setwd('C:/Users/yangyunru/Documents/R')这个语句,但是尝试了一下,这个目录必须是已经存在的目录,否则R一样会报错;也就是说,需要先手动在WINDOW某个原创 2017-03-29 11:17:43 · 27649 阅读 · 0 评论 -
【R语言学习笔记】实现类似数据透视表的若干方式
EXCEL中的很强大的功能就是数据透视表,不得不说,透视表解决了很多数据汇总的问题,包括可以计数、求和、均值等一系列操作;然而数据透视表比较慢,而且对于后续的处理不是很友好。既然用R来分析数据,则不能把所有数据放在excel里然后用R分析,通过R in action的启发,加上很多自己的实验,总结三种透视表的方法。【一】SQL语言的透视表一般在数据分析处理前,从数据库中提取会有若干字段的csv,我们原创 2017-03-07 09:43:35 · 7513 阅读 · 0 评论 -
【R语言学习笔记】初识(三)
R-FAQ原创 2017-03-29 11:19:42 · 3198 阅读 · 0 评论 -
【R语言学习笔记】初识(四)
R-FAQ原创 2017-03-29 11:22:53 · 680 阅读 · 0 评论 -
【R语言学习笔记】初识(五)
R-FAQ原创 2017-03-29 11:29:11 · 408 阅读 · 0 评论 -
【R语言学习笔记】初识(六)
终于到了R语言绘图的一个章节,之前扫过R in action的绘图,没想到这里的绘图讲的更加直观,点赞。【84】在一个画面中画很多图很好用的layout函数,layout有个矩阵,矩阵把整个画面分成横纵两个坐标,相同的数字面积合并;如x把整体画布分成了9分,上面的1占了1/3,下面占了两行三列同理,我要是原创 2017-03-29 11:30:24 · 447 阅读 · 0 评论 -
【R语言学习笔记】文档读取和类型修改
今天偶然看到一个方法可以稍微提高下数据读取和更改,在这里把之前的笨方法和新方法一同记录下。首先,如果需要读取文档,一般使用read.csv命令,而为了更好定位到文档位置,一般用choose.files(),比如我有一个CO2文档choose.files()显示:[1] "C:\\Users\\yangyunru\\Documents\\CO2.csv"然后直接读取read.csv("C:\\User原创 2017-04-11 14:26:09 · 2382 阅读 · 1 评论 -
【R语言学习笔记】探索ggplot的排列组合:线图(一)
上一节探索了散点图,但是散点图好像可以编辑的点不多,排列组合也不太多;下面进行线图的探索1、 最简单的线图 还是借用mtcars的数据集:p<-ggplot(data=mtcars)p+geom_line(aes(x=wt,y=mpg))结果如图: 也就是横轴为wt,纵轴为mpg的一个折线图。这个折线图和之前的散点图非常相似,不过是把点用线之间连了起来。下面进行上色,上色有两个区别,第一个代码原创 2017-04-05 17:20:41 · 2935 阅读 · 0 评论 -
【R语言学习笔记】关于提取各类模型值的意外发现
之前在做各类回归方程和检验的时候,针对模型里面的值的提取总是有一种碰运气的成本,比如在做t检验的时候想提取里面的自由度,随便举个例子,基于mtcars这个数据集a<-t.test(mtcars$vs,mtcars$cyl)结果为Welch Two Sample t-testdata: mtcars$vs and mtcars$cylt = -17.528, df = 35.907, p-valu原创 2017-04-15 11:49:30 · 7457 阅读 · 0 评论 -
【分析方法论】属性对行为的影响分析
一直感觉之所以学习R语言,是因为其代码编译属性可以复用,那么在对R语言有初步认识后,需要更有效率的对工作有些帮助,现阶段在进行用户分析过程中,有些共性的方法,记录之。本文的题目很让人头疼,一来这块只是一个经验,所以谈不上是从大方法下挖出来的一个部分,所以暂且定位属性对行为的影响分析吧。顾名思义,属性对行为影响的分析,主要的因是属性,而行为是果,换句话说,因为在两类中有了比较显著的属性划分,造成二者的原创 2017-04-19 14:16:59 · 675 阅读 · 0 评论 -
【R的网络提取】用R进行CSDN任意博主的信息提取
基于上一篇文章的结论,稍作修改,进行CSDN博客中,各位博主的博客标题和url的提取,本质上只是对之前的特定提取做个广义化,但是有一点确实也在困惑我,因为在XML转换过程中,有很多的list套list,然而apply族函数现阶段看到很多用法都是在大的list中,举个例子:a<-list(list(1,2),3) a[[1]][[1]][[1]][1] 1[[1]][[2]][1] 2[[原创 2017-05-18 18:18:06 · 794 阅读 · 0 评论 -
【ggplot】复杂柱状图:自定义颜色、标签、位置、坐标轴和主题
一直想有机会好好梳理下ggplot的图形,但是一般情况下ggplot常用的图形还是一些线图和柱状图,但是使用ggplot的好处(对比excel)就是R在处理大数据可以不用切换软件直接截取,但是坏处就是相对excel的某些时刻略有复杂,但是如果ggplot连excel的基本画图效率都比不过的话,也就失去了存在的意义。简单的图形当然ggplot官方文档中就有,主要呈现以下复杂的ggplot的柱状图。首先原创 2017-08-17 15:52:49 · 66324 阅读 · 1 评论