R语言
文章平均质量分 69
王亨
这个作者很懒,什么都没留下…
展开
-
R语言报错:Error in scan(file = file, what = what, sep = sep, quote = quote, dec = dec, : n行没有x元素
今天在使用R语言读取一个txt文件时,报如下错误。 > data <- read.table("D:\\StudentTest\\评分.txt", sep="\t",header=T, fileEncoding="CP936")Error in scan(file = file, what = what, sep = sep, quote = quote, dec = dec, : 9行没有2元素在调整各个参数后,任然还是该错误,于是怀疑是否是数据文件的问题,于是,使用not原创 2020-08-29 13:54:29 · 49371 阅读 · 5 评论 -
tushare 金融数据获取(R语言版)
在上次 tushare正确爬取 指数数据文章后,看到后台有人留言说是希望能分享一个R语言版,那么好,你们要的R语言版今天来了。首先,R语言只支持tushare pro,不支持tushare,因此在使用tushare获取数据之前,需要注册后才能使用。library(Tushare)pro <- pro_api(token = '********** token *********')股票数据以平安银行为例:> pro(api_name = 'daily', ts_code原创 2020-07-28 21:42:08 · 3167 阅读 · 2 评论 -
R语言连接MySQL报错:could not run statement: The used command is not allowed with this MySQL version
版本说明R版本:3.5MySQL版本:8.0RMySQL版本:0.10.19情景说明:使用RMySQL成功连接到MySQL数据库,可以进行查询操作,但在插入时报错,提示信息如下:con <- dbConnect(MySQL(), host="127.0.0.1", dbname="epid", user="root", password="1234")dbWrit...原创 2020-02-16 12:23:55 · 1071 阅读 · 0 评论 -
基于R语言构建的电影评分预测模型
电影评分系统是一种常见的推荐系统。现在使用R语言基于协同过滤算法来构建一个电影评分预测模型。一,前提准备 1.R语言包:ggplot2包(绘图),recommenderlab包,reshape包(数据处理) 2.获取数据:大家可以在明尼苏达州大学的社会化计算研究中心官网上面下载这些免费数据集,网站链接为http://grouplens.org/dataset原创 2016-08-05 02:25:53 · 12365 阅读 · 2 评论 -
一键运行R脚本
你平时都是怎么运行你的R脚本的呢?是打开R还是打开Rstudio再运行你的R脚本的呢?你不觉得这样很麻烦吗?今天就给你教一招,简单方便,也不用修改环境变量,让你的脚本像启动程序一样,点一下就自动执行了。首先我们新建一个记事本,写入下面代码。写完之后保存,将记事本的后缀.txt改成.bat保存。一. 使用R.exe程序运行你的脚本(1)当脚本与bat文原创 2017-08-11 16:42:10 · 21304 阅读 · 1 评论 -
R语言文件下载:谁来帮我把这个128个音频下载一下
谁来帮我把这个128个音频下载一下,一下一下点,手都发麻了。链接在这http://download.dogwood.com.cn/online/gfxz2018/index.html。让舍友帮忙下载,结果给我说他打王者荣耀输了8场,今天必须要赢一次。然后我就一个人默默的想办法。后来我在网上搜到了一个函数——download.file(),它今天可算是救了我一条命。它的作用得R可以从互联网上直接把数据原创 2017-09-06 01:23:52 · 3589 阅读 · 0 评论 -
聚类分析简单介绍(附R对应函数介绍)
聚类分析是一种机器学习领域最常用的分类方法,它在在客户分类,文本分类,基因识别,空间数据处理,卫星图片处理,医疗图像自动检测等领域有着广泛应用。聚类就是将相同,相似的对象划分到同一个组中,聚类分析事前不需要参考任何分类信息,可以通过判断数据表特征的相似性来完成对数据的归类。在聚类分析中,观测值的类别一般情况下是未知的。我们希望将观测值聚类为合适的几个分类。聚类在机器学习中就是无监督学习。今天来介绍原创 2018-02-04 21:40:02 · 10637 阅读 · 0 评论 -
rvest包爬取猎聘网招聘信息
前言前不久,我用rvest包爬取了政府工作报告,通过jiebaR分词,并用wordcloud2进行了词云分析。点击查看 http://blog.csdn.net/wzgl__wh/article/details/72804687今天,我们来用rvest包爬取猎聘网上的招聘信息。链接为 https://www.liepin.com/zhaopin/?init=1 。 打开的页面如上图,今天任务要爬...原创 2017-07-10 21:28:44 · 3345 阅读 · 0 评论 -
jiebaR中文分词,从入门到喜欢
今天来聊聊jiebaR这个包,绝对让你从入门,到你喜欢这个包到爱不释手。原创 2017-05-20 13:54:11 · 8863 阅读 · 2 评论 -
QQ聊天记录分析
今天我们用R语言来来好好挖一下你的QQ聊天记录。原创 2017-04-05 14:26:09 · 15269 阅读 · 2 评论 -
仅用四行代码就可以挖掘你的QQ聊天记录
只需4行代码,对,没错,就4行代码,可以完整的分析你的QQ聊天记录,快来试试吧!原创 2017-04-29 16:29:40 · 26081 阅读 · 0 评论 -
Windows安装Rtools
Rtools提供了一个适用于R的Windows平台工具链,它主要包括GNU make,GNU gcc和UNIX-ish平台上常用的其他实用程序。 这里简要介绍如何在Windows上安装Rtools。Rtools下载地址:https://cran.r-project.org/bin/windows/Rtools/说明:如果电脑使用的R版本是3.3.x,那么就下载Rtools33.exe,原创 2017-04-15 17:47:05 · 62004 阅读 · 22 评论 -
Ubuntu安装rjava
在Linux Ubuntu系统安装rjava原创 2017-04-19 17:07:04 · 2284 阅读 · 2 评论 -
R语言使用分词包错
在R语言中使用Rwordseg包的segmentCN函数在分词时,如果出现下面这个错误:Error in .jcall(analyzer, "S", strfunc, X) : java.lang.NullPointerException解决方法:texttextword.messageOK,这样的话既可以了。原创 2017-04-03 18:55:23 · 4010 阅读 · 1 评论 -
R | 对亚马逊新总部可能位置进行可视化
前不久,亚马逊宣布在寻找一个城市建立第二个总部。 他们对这个城市的标准是超过100万人,同时这个城市也要人才济济。 在一个新闻网站上面发现,我发现了一些可能的城市名单,他们都有超过100万的人口,而且每个城市都是相当多的人才。 https://www.cbsnews.com/news/amazon-hq2-cities-location-choices-new-second-headquar...翻译 2017-10-28 15:54:58 · 620 阅读 · 0 评论 -
定时执行R脚本
哈喽,大家有没有经常重复的执行一个脚本,每次执行是不是很烦人?今天分享的这一篇文章,就是来帮助你解决这个烦恼。方法就是在Linux下设置定时任务,定时执行脚本,这样就不用每次手动执行,而且会节省很多时间,减少很多麻烦,毕竟科技因懒人而进步。首先说说定时任务工具crontab,crontab可以设置任务执行的时间,比如每月的1号,每天晚上12点,每周一等,设置也是非常的简单。crontab设置的...原创 2018-12-11 23:46:27 · 2876 阅读 · 0 评论 -
基于Web日志挖掘的个性化推荐系统(附源码)
个性化推荐系统实现该系统主要是使用的编程语言主要是R,然后配合css在样式上进行一定优化,使用shiny开发的一款web程序,主要实现的核心功能是基于spark的ALS算法的课程个性化推荐系统。首页界面如下图所示:该系统中的所有课程名称,课程图片以及课程链接均从百度传课爬取进行汇总得到的,因此点击每个图片均可以跳转至该课程在百度传课的页面。该系统中实现的主要功能有: 首页推荐...原创 2018-07-29 12:36:04 · 9662 阅读 · 15 评论 -
基于Spark ALS算法的个性化推荐
今天来使用spark中的ALS算法做一个小推荐。需要数据的话可以点击查看初识sparklyr—电影数据分析,在文末点击阅读原文即可获取。其实在R中还有一个包可以做推荐,那就是recommenderlab。如果数据量不大的时候可以使用recommenderlab包,之前也用该包做过电影评分预测模型(点击即可查看)。如果数据量较大还是推荐使用spark来进行计算。在spark中包含...原创 2018-05-18 21:55:12 · 3511 阅读 · 0 评论 -
爬虫 | 正则表达式提取腾讯教育新闻链接及图片链接
前面的爬虫都是通过标签来爬取的,今天就分享一个小例子使用正则表达式来提取网页信息。如果你对正则表达式不熟悉,可以查看我之前写的R正则表达式这篇文章。它对R几个常用正则表达式进行了详尽的解释,包括参数说明,函数区别,正则表达式转义等都有介绍。今天通过爬取腾讯教育(http://edu.qq.com/)网页的所有关于教育新闻的链接,另外也爬取图片链接。提取新闻链接首先我们来分析一些教育类新闻链接的特点...原创 2018-05-18 18:50:29 · 1668 阅读 · 0 评论 -
R语言 赋值符号 的区别
R语言赋值可以用=或<-,一般都建议使用<-,那你知道这两个之间的区间吗?那你有没有见过‘<-’和‘=’这种赋值方法吗?今天就来和大家聊聊这基本的赋值符号都有哪些区别。首先我们来看看符号的优先级,和java,c这些编程语言的优先级类似。下面这些都取自R帮助文档,输入?Syntax即可查看,它是根据优先级从高到低排列的。:: ::: access variables in a...原创 2018-05-18 18:48:30 · 8311 阅读 · 0 评论 -
中文乱码,也许这个小技巧可以帮到你
我们都知道R对中文是真的很不友好。即使把encoding设置成UTF-8还是GBK等,它有时不听话的还是依旧乱码。有人说在设置里面把默认字符集编码设成utf-8,不过试了,没用!比如我原本数据是左边这种这个样子,读到R里面却成了右边这个样子。这该情何以堪啊,我待R如初恋,R却虐我千万遍。虽然在Linux系统下使用Libreoffice calc打开时,可以选择字符集类型,只要选择合适的字符是不会乱...原创 2018-05-18 18:44:57 · 5334 阅读 · 3 评论 -
安卓手机安装R
上次给大家推荐了一款学习R的APP,结果有人嫌弃不能敲代码,今天就再了给你推荐一款可以敲代码的APP——termux。该软件可以在你的手机上面直接模拟出一个Linux环境,这样你也就可以在上面安装R了。该软件安装R非常方便,打开软件,只需要输入以下几步就可以了,网速快的话四五分钟就可以装好:#建立storagetermux-setup-storageexport EDITOR=viapt edit...原创 2018-04-25 15:14:52 · 10250 阅读 · 1 评论 -
R语言爬取imdb电影海报
提前声明,这不是一个好的例子,所以不要向我学习。让我先冷静一下!OK,开始,今天我们开始从下面链接爬虫。http://www.imdb.com/search/title?count=100&release_date=2016,2016&title_type=feature。打开页面如下:总共有100页,包含电影1万多部。我只爬取了2000个。(PS:等我截下面这张图时顺序已经和原来...原创 2018-04-25 13:48:44 · 1827 阅读 · 0 评论 -
初识sparklyr—电影数据分析
这篇文章是初次使用sparklyr扩展包来进行一些数据分析,对Spark牵扯不是很多。使用的数据是movieLens 100k,这份数据包含943个用户对1680部电影的评分数据,如需获取数据请在文末点击阅读原文。准备工作#安装sparklyr包install.packages("sparklyr")library(sparklyr)library(dplyr)sc <- spark_co...原创 2018-04-25 13:47:00 · 1044 阅读 · 0 评论 -
R语言日期数据处理
在处理一些数据中,我经常遇到一些日期数据,今天就来说说对于不同格式的日期数据该怎么处理。下面是一些常用来处理的函数。as.Date(x, ...)## S3 method for class 'character'as.Date(x, format, ...)## S3 method for class 'numeric'as.Date(x, origin, ...)## S3 method fo...原创 2018-04-25 13:45:48 · 20015 阅读 · 1 评论 -
基于 TensorFlow 的图像识别(R实现)
提到机器学习,深度学习这些,大家都会立马想起Python。但R的实力也不容小觑。今天就用R来演示一个基于TensorFlow的图像识别的例子。如果你想运行这些代码,就必须先安装配置好TensorFlow,我是在Linux系统上面运行的。如何配置TensorFlow尽量看看官方文档,虽然是英文的,但是最新的,也是最准确的。废话不说,直接来看代码,在代码中我也做了详细的注释,看起来应该不是很困难。...原创 2018-02-11 19:42:16 · 11836 阅读 · 3 评论 -
R语言关联分析之啤酒和尿布
关联分析概述啤酒和尿布的故事,我估计大家都听过,这是数据挖掘里面最经典的案例之一。它分析的方法就关联分析。关联分析,顾名思义,就是研究不同商品之前的关系。这里就发现了啤酒和尿布这两个看起来毫不相关的东西直接存在的微妙关系。最经典的关联分析算法之一就是Apriori算法,也是数据挖掘十大算法之一。在R中就有一个包可以做关联分析——arules和arulesViz,前者原创 2018-01-12 16:58:17 · 5183 阅读 · 0 评论 -
R语言:再谈REmap包
之前写过一篇关于Remap的文章,但有许多网友都存在不同的问题,在微信公众号后台或博客留言,想我请教一些问题。于是我就觉得很有必要在写一篇文章,好好的把Remap这个包好好的给大家介绍一下。我们都应该知道这个包的主要目的可交互的地图数据可视化的工具,托管在github,现在.这个包是基于Echarts开发的一个包,它本身提供的参数也比较少,也就是说你想绘制很个性更有特点的图像的话,那你原创 2017-03-26 21:32:53 · 11087 阅读 · 5 评论 -
R语言常用函数总结大全
今天把R常用函数大体汇总了一下,其中包括一般数学函数,统计函数,概率函数,字符处理函数,以及一些其他函数;1.数学函数 函数 作用 abs() 绝对值 sqrt() 平方根 ceiling(x) 不小于x的最小整数 ...原创 2017-03-12 09:01:58 · 74287 阅读 · 11 评论 -
R语言之矩阵操作
R语言作为一门统计语言,肯定缺少不了矩阵处理。今天来总结出来以下关于矩阵运算的函数,其中包括矩阵的求和,转置,内积,外积等。+, -, * , /矩阵的四则运算,对应位置的元素进行运算要求矩阵的维数必须相同t()矩阵的行列转置colSums()分别对矩阵的每一列进行求和原创 2016-10-23 02:25:51 · 54040 阅读 · 1 评论 -
快速学习ggplot2
R语言里面一个比较重要的绘图包——ggplot2,是由Hadley Wickham于2005年创建,于2012年四月进行了重大更新,作者目前的工作是重写代码,简化语法,方便用户开发和使用。ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离,是按图层作图,有利于结构化思维,同时它保有命令式作图的调整函数,使其更具灵活性,绘制出来的图形美观,同时避免繁琐细节。ggplo原创 2016-07-15 20:07:25 · 26992 阅读 · 1 评论 -
使用R语言进行中文分词
使用R语言的Rwordseg包进行的简单的中文分词解析原创 2016-09-14 00:49:59 · 22742 阅读 · 5 评论 -
数据科学和机器学习中使用的最多的20个R语言包
在数据科学和机器学习中使用的最多的20个包都在这里。翻译 2016-05-15 17:25:37 · 6655 阅读 · 0 评论 -
Rwordseg包如何加载本地词典
尽管Rwordseg对中文分词已经做得很好了,但有的时候还是不行的。我们可以加载本地词典。比如我们从搜狗官网上面下载下来的.scel词典,可以通过下面方法加载:installDict("D:\\Program Files\\R\\R-3.3.1\\library\\Rwordseg\\dict\\计算机名词.scel","sougou")这里加载了计算机名词的一个词库,我们命名它为搜狗。原创 2016-08-29 00:44:16 · 4608 阅读 · 1 评论 -
使用R实现一个简单的连续系统模拟
连续系统就是指状态随着时间连续变化的系统。我们通过计算机模拟对连续系统得到的结果只是近似的,但如果只要这种近似达到了一定的精度,也就可以满足要求。连续系统模拟的一般方法就是首先建立系统的连续模型,然后转换为一个离散模型,并对该模型进行模拟。下面是一个追逐问题。 在一个正方形ABCD的4个顶点处各站一个人。在某一个时刻,4个人同时出发,均以匀速v走向顺时针的下一个人,假原创 2016-08-01 20:40:59 · 3873 阅读 · 0 评论 -
如何使用R来连接各个数据库
R语言如何连接到mysql,sql sever 等数据库,如何数据库中有中文,该怎样设置编码。原创 2016-06-23 20:45:31 · 7672 阅读 · 0 评论 -
异常值的观测
异常值是数据集较为特殊的一类值,指距离大部分数据点明显较远的值。他的产生原因可能是数据录入错误,数据产生条件与其他数据不一致或小概率事件等。并且,异常值对数据分析的结果影响也很大。观测异常值:箱线图箱线图是一种根据极值,四分位数,和中位数画出的图形,图中还标出了常规意义上的异常值,即距离中位数远于三个标准差的值。我们可以使用Boxplot( )函数画出箱线图,箱线图原创 2016-06-27 17:45:55 · 3118 阅读 · 0 评论 -
R语言常用包分类总结
对R语言的常用包,金融包,可视化包,数据挖掘相关包进行分类整理。原创 2016-05-10 19:46:34 · 17404 阅读 · 0 评论 -
错误: (串列)对象不能强制改变成'double'解决办法
在R中进行将数据框类型转换为数字类型类型的时候,有时候会出现 错误: (串列)对象不能强制改变成'double'种类 解决分两步:①[email protected](data)这样即可解决问题。原创 2016-07-24 20:53:03 · 16048 阅读 · 1 评论 -
可视化文本数据—词云
“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于提出,词云是一种可视化描绘单词或词语出现在文本数据中频率的方式,它主要是由随机分布在词云图的单词或词语构成,出现频率较高的单词或词语则会以较大的形式呈现出来,而频率越低的单词或词语则会以较小的形式呈现。词云主要提供了一种观察社交媒体网站上的热门话题或搜索关键字的一种方式,它可以对网络文本中出现频率较高的原创 2016-06-28 01:29:18 · 11348 阅读 · 2 评论