R语言
文章平均质量分 78
数据可视化,数据挖掘,机器学习知识分享!
王亨
这个作者很懒,什么都没留下…
展开
-
初识sparklyr—电影数据分析
这篇文章是初次使用sparklyr扩展包来进行一些数据分析,对Spark牵扯不是很多。使用的数据是movieLens 100k,这份数据包含943个用户对1680部电影的评分数据,如需获取数据请在文末点击阅读原文。准备工作#安装sparklyr包install.packages("sparklyr")library(sparklyr)library(dplyr)sc <- spark_co...原创 2018-04-25 13:47:00 · 1092 阅读 · 0 评论 -
安卓手机安装R
上次给大家推荐了一款学习R的APP,结果有人嫌弃不能敲代码,今天就再了给你推荐一款可以敲代码的APP——termux。该软件可以在你的手机上面直接模拟出一个Linux环境,这样你也就可以在上面安装R了。该软件安装R非常方便,打开软件,只需要输入以下几步就可以了,网速快的话四五分钟就可以装好:#建立storagetermux-setup-storageexport EDITOR=viapt edit...原创 2018-04-25 15:14:52 · 10459 阅读 · 1 评论 -
爬虫 | 正则表达式提取腾讯教育新闻链接及图片链接
前面的爬虫都是通过标签来爬取的,今天就分享一个小例子使用正则表达式来提取网页信息。如果你对正则表达式不熟悉,可以查看我之前写的R正则表达式这篇文章。它对R几个常用正则表达式进行了详尽的解释,包括参数说明,函数区别,正则表达式转义等都有介绍。今天通过爬取腾讯教育(http://edu.qq.com/)网页的所有关于教育新闻的链接,另外也爬取图片链接。提取新闻链接首先我们来分析一些教育类新闻链接的特点...原创 2018-05-18 18:50:29 · 1689 阅读 · 0 评论 -
基于Spark ALS算法的个性化推荐
今天来使用spark中的ALS算法做一个小推荐。需要数据的话可以点击查看初识sparklyr—电影数据分析,在文末点击阅读原文即可获取。其实在R中还有一个包可以做推荐,那就是recommenderlab。如果数据量不大的时候可以使用recommenderlab包,之前也用该包做过电影评分预测模型(点击即可查看)。如果数据量较大还是推荐使用spark来进行计算。在spark中包含...原创 2018-05-18 21:55:12 · 3573 阅读 · 0 评论 -
搭建一款属于你自己的图像识别系统
上一篇文章是一篇关于使用TensorFlow和R语言的一个图像识别,今天就用shiny将它包装成一个小程序。shiny程序分为两个部分,一个是ui.R,一个是server.R。ui.R实现的是前端,server.R实现的是服务器端。我的ui.R是在Windows系统上面写的,准备在写server.R的时候再在Linux上面写,因为总感觉在Windows下方便许多。为了使界面更加美观,我在ui.R里...原创 2018-03-02 18:25:19 · 19621 阅读 · 7 评论 -
基于 TensorFlow 的图像识别(R实现)
提到机器学习,深度学习这些,大家都会立马想起Python。但R的实力也不容小觑。今天就用R来演示一个基于TensorFlow的图像识别的例子。如果你想运行这些代码,就必须先安装配置好TensorFlow,我是在Linux系统上面运行的。如何配置TensorFlow尽量看看官方文档,虽然是英文的,但是最新的,也是最准确的。废话不说,直接来看代码,在代码中我也做了详细的注释,看起来应该不是很困难。...原创 2018-02-11 19:42:16 · 11915 阅读 · 3 评论 -
聚类分析简单介绍(附R对应函数介绍)
聚类分析是一种机器学习领域最常用的分类方法,它在在客户分类,文本分类,基因识别,空间数据处理,卫星图片处理,医疗图像自动检测等领域有着广泛应用。聚类就是将相同,相似的对象划分到同一个组中,聚类分析事前不需要参考任何分类信息,可以通过判断数据表特征的相似性来完成对数据的归类。在聚类分析中,观测值的类别一般情况下是未知的。我们希望将观测值聚类为合适的几个分类。聚类在机器学习中就是无监督学习。今天来介绍原创 2018-02-04 21:40:02 · 10675 阅读 · 0 评论 -
R语言关联分析之啤酒和尿布
关联分析概述啤酒和尿布的故事,我估计大家都听过,这是数据挖掘里面最经典的案例之一。它分析的方法就关联分析。关联分析,顾名思义,就是研究不同商品之前的关系。这里就发现了啤酒和尿布这两个看起来毫不相关的东西直接存在的微妙关系。最经典的关联分析算法之一就是Apriori算法,也是数据挖掘十大算法之一。在R中就有一个包可以做关联分析——arules和arulesViz,前者原创 2018-01-12 16:58:17 · 5242 阅读 · 0 评论 -
R | 对亚马逊新总部可能位置进行可视化
前不久,亚马逊宣布在寻找一个城市建立第二个总部。 他们对这个城市的标准是超过100万人,同时这个城市也要人才济济。 在一个新闻网站上面发现,我发现了一些可能的城市名单,他们都有超过100万的人口,而且每个城市都是相当多的人才。 https://www.cbsnews.com/news/amazon-hq2-cities-location-choices-new-second-headquar...翻译 2017-10-28 15:54:58 · 632 阅读 · 0 评论 -
rvest包爬取猎聘网招聘信息
前言前不久,我用rvest包爬取了政府工作报告,通过jiebaR分词,并用wordcloud2进行了词云分析。点击查看 http://blog.csdn.net/wzgl__wh/article/details/72804687今天,我们来用rvest包爬取猎聘网上的招聘信息。链接为 https://www.liepin.com/zhaopin/?init=1 。 打开的页面如上图,今天任务要爬...原创 2017-07-10 21:28:44 · 3389 阅读 · 0 评论 -
R语言之脸谱图
脸谱图和星图类似,但它却比星图可以表示更多的数据维度。原创 2016-12-25 04:12:27 · 18296 阅读 · 0 评论 -
R语言之正则表达式
正则表达式的主要用途之一是搜索变化多端的文本,用来处理和匹配字符串。比如我们要在Word,记事本等里面使用快捷键Ctrl+F,进行查找一个特定的字符,或者替换一个字符,这就使用了正则表达式。 正则表达式的功能非常强大,尤其是在文本数据进行处理中显得更加突出。R中的grep、grepl、sub、gsub、regexpr、gregexpr等函数都使用正则表达式的规则进行匹配。这几个函数原型如下:原创 2017-01-08 18:44:15 · 4922 阅读 · 0 评论 -
jiebaR中文分词,从入门到喜欢
今天来聊聊jiebaR这个包,绝对让你从入门,到你喜欢这个包到爱不释手。原创 2017-05-20 13:54:11 · 8913 阅读 · 2 评论 -
R语言常用包分类总结
对R语言的常用包,金融包,可视化包,数据挖掘相关包进行分类整理。原创 2016-05-10 19:46:34 · 17505 阅读 · 0 评论 -
仅用四行代码就可以挖掘你的QQ聊天记录
只需4行代码,对,没错,就4行代码,可以完整的分析你的QQ聊天记录,快来试试吧!原创 2017-04-29 16:29:40 · 26241 阅读 · 0 评论 -
QQ聊天记录分析
今天我们用R语言来来好好挖一下你的QQ聊天记录。原创 2017-04-05 14:26:09 · 15369 阅读 · 2 评论 -
R语言:使用REmap绘制超炫酷的地图
REmap这个包是通过调用百度地图API的一个程序包,与Google的ggmap包相比,不用翻墙就可以使用。其函数主要有:remap(),remapB()、remapC()、remapH()四个。该程序包目前要github网站上,因此我们需要从github上面下载安装。install.packages("devtools")#如果安装了就不需要这步library(devtools)inst原创 2016-11-10 02:16:43 · 50851 阅读 · 40 评论 -
R语言:再谈REmap包
之前写过一篇关于Remap的文章,但有许多网友都存在不同的问题,在微信公众号后台或博客留言,想我请教一些问题。于是我就觉得很有必要在写一篇文章,好好的把Remap这个包好好的给大家介绍一下。我们都应该知道这个包的主要目的可交互的地图数据可视化的工具,托管在github,现在.这个包是基于Echarts开发的一个包,它本身提供的参数也比较少,也就是说你想绘制很个性更有特点的图像的话,那你原创 2017-03-26 21:32:53 · 11144 阅读 · 5 评论 -
使用R语言对照片人物进行情绪分析
人脸提供关于情绪的各种信息。 微软于2015年12月推出免费服务,分析人脸,进行情绪检测。 检测到的情绪是愤怒,蔑视,厌恶,恐惧,幸福,中立,悲伤和惊喜。 这些情绪被理解为与特定的面部表情跨文化和普遍传达。Emotion API将图像中的面部表情作为输入,并使用Face API返回图像中每个面部的一组情绪的置信度以及面部的边界框。在R中的实现允许以结构化的方式分析人脸。翻译 2016-10-23 20:56:34 · 5956 阅读 · 2 评论 -
R语言:绘制知识图谱
今天我们借助networkD3包里面的simpleNetwork 函数来绘制一个类似CSDN微信开发的知识图谱,效果图如下:首先我们先来分析一下这张图,图里面的微信支付——微信支付,小程序——小程序,等这些,它们之间本不需要连线,但这里是为了美观好看,才有这些连线,但实际却没有什么意义。使用simpleNetwork 函数不能绘制类似微信支付——微信支付 的这种关系原创 2016-11-22 21:02:59 · 14288 阅读 · 5 评论 -
快速学习ggplot2
R语言里面一个比较重要的绘图包——ggplot2,是由Hadley Wickham于2005年创建,于2012年四月进行了重大更新,作者目前的工作是重写代码,简化语法,方便用户开发和使用。ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离,是按图层作图,有利于结构化思维,同时它保有命令式作图的调整函数,使其更具灵活性,绘制出来的图形美观,同时避免繁琐细节。ggplo原创 2016-07-15 20:07:25 · 27112 阅读 · 1 评论 -
使用R实现一个简单的连续系统模拟
连续系统就是指状态随着时间连续变化的系统。我们通过计算机模拟对连续系统得到的结果只是近似的,但如果只要这种近似达到了一定的精度,也就可以满足要求。连续系统模拟的一般方法就是首先建立系统的连续模型,然后转换为一个离散模型,并对该模型进行模拟。下面是一个追逐问题。 在一个正方形ABCD的4个顶点处各站一个人。在某一个时刻,4个人同时出发,均以匀速v走向顺时针的下一个人,假原创 2016-08-01 20:40:59 · 3910 阅读 · 0 评论 -
基于R语言构建的电影评分预测模型
电影评分系统是一种常见的推荐系统。现在使用R语言基于协同过滤算法来构建一个电影评分预测模型。一,前提准备 1.R语言包:ggplot2包(绘图),recommenderlab包,reshape包(数据处理) 2.获取数据:大家可以在明尼苏达州大学的社会化计算研究中心官网上面下载这些免费数据集,网站链接为http://grouplens.org/dataset原创 2016-08-05 02:25:53 · 12419 阅读 · 2 评论 -
R语言如何画个性化词云图
我之前写了一篇关于使用wordcloud包的文本可视化的博客。点击查看. Ian Fellows与2014-06-13公布了wordcloud包,之前我用wordcloud包写了一篇关于文本可视化的博客。这里就不再多说了。就在今年2016-07-25,Dawei Lang发布了wordcloud2,它是wordcloud的一个升级版。不信咱们就看看。我们可以用这个包画出个性化词云图。原创 2016-09-03 02:14:53 · 39023 阅读 · 11 评论 -
数据科学和机器学习中使用的最多的20个R语言包
在数据科学和机器学习中使用的最多的20个包都在这里。翻译 2016-05-15 17:25:37 · 6679 阅读 · 0 评论