![](https://img-blog.csdnimg.cn/20191215224158834.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
★★★R软件
R软件知识
维格堂406小队
人天生都是软弱的,唯其软弱而犹能承担起苦难,才显出人的尊严。
展开
-
RNote102---时间处理
覆盖常用的时间处理操作,如:字符串转日期日期转字符串生成指定时间间隔的序列数据生成间隔时序vectortimeRange <- function(starttime, endtime, step="15 mins", inputFormat='%Y%m%d%H%M%S', outputFormat='%Y%m%d%H%M%S'){ # 转换成POSIXlt格式 start_slice_p <- strptime(starttime, inputFormat) end原创 2020-05-18 08:58:35 · 189 阅读 · 0 评论 -
RPackage008---Rjson&RJSONIO
整理下之前的笔记,发现当年在杭州还写过r解析json的东西,直接复制代码了,懒得搞~rjson# Ref: http://www.dataguru.cn/article-3537-1.html# install.packages("rjson")library(rjson)getwd()# fromJSON() 从JSON到R ------------------------------------------------------json_data <- fromJSON(fil原创 2020-05-18 00:12:49 · 483 阅读 · 1 评论 -
RNote101---多线程处理
R的循环效率比较慢,通常可以使用apply族函数进行加速,那么多线程怎么整?只介绍方法,原理不是很懂。R会给出程序运行时间,供参考:用户:是消耗在应用程序(非操作系统部分)执行的时间系统:是底层操作系统执行(例如磁盘读写等)部分的时间流逝:是经过的总时间(可以认为是前两者的总和)snow包先查看电脑有几个core我现有电脑配置是6核,逻辑处理器是12parallel::de...原创 2020-04-23 08:53:10 · 364 阅读 · 0 评论 -
RNote105---match.arg用法
center <- function(x, type = c("mean", "median", "trimmed")) { type <- match.arg(type) print(type) switch(type, mean = mean(x), median = median(x), trimmed = mean(x, trim = 0.1))}...原创 2019-12-20 17:36:11 · 5352 阅读 · 0 评论 -
RPackage007---smbinning
knitr::opts_chunk$set(echo = TRUE) 这个包主要是进行woe分组时候用的,有比较丰富的函数可以用。简单介绍其中两个函数,最优分箱和自定义分箱。业务希望可以自动寻参,虽然实际用的时候,自动分箱经常无解,但是也可以通过手动设置阈值来作为参考。 Intro 对R的版本有要求,3.4.0以上。升级R的话用installr倒是可以,但是默认是升级到最新版...原创 2018-04-05 19:30:18 · 2777 阅读 · 0 评论 -
RPackage011---SMOTE
knitr::opts_chunk$set(echo = TRUE)AIM主要目标学习SMOTE算法,并且利用DMwR实现该算法,用以处理类不平衡问题。 简介该函数使用SMOTE算法处理类不平衡问题。简而言之,这个函数能够生成SMOTE算法处理之后的数据。或者,它也可以在新生成的数据集建立二分类模型,并且返回最终的模型。 函数使用方式CodeSMOTE(form, data, perc.over原创 2017-11-21 17:06:28 · 2385 阅读 · 0 评论 -
Rmarkdown01---Note of Rmarkdown
Rmarkdown相关1)代码块最终报告中,代码运行的结果会嵌入在代码下方(1)快捷键#插入代码块快捷键Win:Ctrl + Alt + I (OS X: Cmd + Option + I)或者Rstudio的快捷键(2)参数设置代码块输出结果可以通过{}中的参数进行定制1、include=FALSE代码可以执行,报告(html、word)中不出现代码和结果,但是运行的结果存在workspac原创 2017-07-26 20:01:28 · 1270 阅读 · 0 评论 -
Rmarkdown02---Rmarkdown转换PDF
想试试R语言自动化报告,结果出现中文各种报错。 网上查了些方法,记录下~ 安装pandoc地址:https://code.google.com/p/pandoc/downloads/list 需要翻墙,放上百度云的,版本pandoc-1.12.3 链接:https://pan.baidu.com/s/1mivc2aG 密码:3qgj 安装MiKTeX直接点击Knit转PDF,会出现下面的报错。原创 2017-07-29 16:08:05 · 8576 阅读 · 2 评论 -
R基础绘图
添加图例还是没有找到直接在图形外面添加图例的方法,基础的命令如下原创 2017-11-17 13:29:39 · 510 阅读 · 0 评论 -
R爬取经纬度对应位置信息
根据给定的GPS数据,爬取对应的位置信息执行代码Get_areadata_by_GPS(location=c("34.59979,119.1974"),ak="yourappkey")执行结果函数脚本######---------Find province and city by GPS---------####### 参考网址【lbsyun.baidu.com/index.php?title=w原创 2017-10-16 20:14:11 · 2482 阅读 · 0 评论 -
R爬取对应IP位置数据
用的淘宝接口。 不过貌似封IP,查到第三个就要用20s左右。专业的反爬虫什么的我也不会,晚上放在服务器上跑数据,业务上凑活用吧。# Get_areadata_by_IP("60.191.4.194")## 传入IP返回相关数据library(RCurl)library(bitops)Get_areadata_by_IP <- function(ip_element) { tryCatc原创 2017-10-16 20:26:12 · 1121 阅读 · 0 评论 -
爬取中国行政区域数据
实际工作需要县以上的行政区域数据,方便做清晰地址数据。 原数据地址:国家统计局原数据格式: 爬取后数据: 代码如下:library(rvest)url <- "http://www.stats.gov.cn/tjsj/tjbz/xzqhdm/201703/t20170310_1471429.html"web <- read_html(url)## 爬取原始数据areadata <- w原创 2017-10-15 15:25:08 · 2769 阅读 · 0 评论 -
RPackage001---animation
最近看PLA时,想要观察分隔超平面的更新情况,所以尝试用R画更新的过程,即动图。 环境配置 ImageMagic安装,官网http://www.imagemagick.org/script/download.php。我选择的是ImageMagick-7.0.7-15-Q16-x64-static.exe。指定目录,默认选项安装即可。R实现library(animation)## 指定Image原创 2017-12-18 16:01:51 · 547 阅读 · 0 评论 -
RNote100---Tricks of R
1、do.call函数针对list里的所有元素执行某一函数,如对N个数据框执行行合并的操作 do.call(“sum”,list(2,4)) [1] 6 2、library()如何引用变量如果包的名字以变量传到library中,需要设置character.only = Tpackage &amp;amp;amp;amp;amp;amp;amp;amp;amp;lt;- ggplot2library(package, character....原创 2017-06-09 17:57:12 · 795 阅读 · 0 评论 -
Python&R
R和Python实现相同功能的方法笔记,现在R比较熟,对照学Python,应该会快点吧~文件读取1. R-文件读取1.1 csv文件读取 R语言读取csv文件,可以使用read.csv函数。具体如下: ## file 指定文件目录,header 是否保留标题行traindata read.csv(file = "./train_x.csv",header原创 2018-01-25 10:44:11 · 330 阅读 · 0 评论 -
Shiny07---用Shiny完成分箱调参工作
业务提需求,希望可以自动寻找阈值,完成分箱工作,继而找到合适的区间,区别好坏用户。采用R软件的smbinning包,提供自动最优分箱和手动切分两种方式,便于业务同事自动化的切分区间和观察结果。 提供ui和sever脚本,供大家参考。 UI脚本# 参数调整 --------------------------------------------------------------...原创 2018-04-05 19:46:34 · 474 阅读 · 0 评论 -
RNote112---安装rJava包
用xlsx包时候需要安装rJava,但是要先配置java环境。简单记录下: 1 下载jdk 官网地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html,点击自己电脑对应系统的文件,下载即可。 2 安装jdk 安装jdk有两次选择路径,把jre...原创 2018-07-10 12:58:11 · 3064 阅读 · 0 评论 -
RPackage006---xlsx
knitr::opts_chunk$set(eval = FALSE, include = FALSE)1.需求 工作中需要把单变量分析的结果保存在Excel中,结果分为:数据和图片。利用xlsx这个包,可以完成大部分工作。 2.环境配置 依赖的包为'tidyverse', 'rJava', 'xlsxjars', 'xlsx',其中rJava需要配置java环境。具...原创 2018-07-10 15:36:33 · 277 阅读 · 0 评论 -
RNote103---R中的变量名操作
knitr::opts_chunk$set(echo = TRUE) 目的明确:循环赋值时,希望取出的字符串直接作为变量名。 exists 查看当前工作空间是否存在该对象。 # 1.注意输入的是字符串# 2,返回 FALSEexists("test")# 返回TRUEtest <- 1:10test_name <- "test"exis...原创 2018-07-12 10:52:52 · 3293 阅读 · 0 评论 -
RNote104---编译字符串&执行代码
knitr::opts_chunk$set(echo = TRUE)目的 目的:执行以字符串形式保存的代码。有的时候不知道变量的个数或者名称,所以不能在程序里面写死,需要根据实际情况,生成相应的字符串。用以解析,并且执行。 案例 案例很简单,有一个向量x,希望把他对应位置的值,赋给相应变量,变量名为x1,x2等。 根据之前文章介绍https://blog.csdn....原创 2018-07-12 17:08:31 · 614 阅读 · 0 评论 -
RNote113---smbinning分箱并输出到Excel
用IV做单变量分析,需要关注每个bin的覆盖率和逾期率。把smbinning的结果和图输出到指定的Excel中。 统计分析# ------------------------------***统计分析函数***------------------------------## parameter : x-feature,y-label,data-dataframe,## 参...原创 2018-07-13 10:30:30 · 1385 阅读 · 0 评论 -
Shiny02---Shiny异常解决
1、重复提交报错之前遇到的问题,一直没解决~感谢geogle报错日志# 查看日志cd /var/log/shiny-server # 日志存放路径cat Data_Compass-shiny-20170913-193720-43061.log# 报错信息Warning: Error in <Anonymous>: cannot open file 'Rplots.pdf'解决方式chown原创 2017-09-13 20:20:32 · 1160 阅读 · 0 评论 -
《基于R语言的自动数据收集》--第3章 XML和JSON
Mark~ 明天填坑原创 2017-10-13 17:03:08 · 701 阅读 · 0 评论 -
RPackage009---dplyr
1、取子集类似于基础函数的subset~## 基础函数,感觉subset反而更方便## 参数:指定数据框、筛选行、筛选列subset(x=iris,Sepal.Length<5,select=Sepal.Length)## dplyr## filter筛选行、select筛选列library(dplyr)iris %>% filter(Sepal.Length<5) %>% select原创 2017-11-08 11:48:26 · 272 阅读 · 0 评论 -
RNote107---Linux定时运行R脚本
目的是把R处理后的数据塞到数据库里面,需要在服务器上设置定时任务~安装网上有这种安装方式,但是我没有安装成功。 找不到此安装包~ 另外运维在搞服务器的时候好像就已经搞好这个了~yum -y install vixie-cronyum -y install crontabs文件格式文件格式类似于yarn和trainer配置任务的方式,在tc还是学到蛮多东西的嘛~ 分别是分、时、天、月、周几参数原创 2017-08-26 17:27:35 · 714 阅读 · 0 评论 -
RNote110---linux下安装RStudio Server
在xshell里操作实在有点麻烦,为了提高工作效率,安装下RStudio Server~linux系统环境查看linux配置 版本:Red Hat 4.8.3-9 64位 安装RStudio Server1、 下面网址里找到对应的RStudio Server版本 https://www.rstudio.com/products/rstudio/download-server/ 2、 lin原创 2017-08-12 13:05:56 · 9259 阅读 · 0 评论 -
ggplot2学习
ggplot学习主要参考学习《R语言实战》,单纯留些记录方便以后自己查找ggplot2简介# ggplot2简介 ---------------------------------------------------------------library(ggplot2)#ggplot()初始化图形并且指顶要用到的数据来源(mtcars)和变量(wt、mpg)#geom_添加几何对象,点、线等原创 2017-05-04 21:35:25 · 1226 阅读 · 0 评论 -
HTML相关知识---《基于R语言的自动数据收集》
语法规则什么是 HTMLHTML 标签标签举例标签与属性表格看了下书的这一章,简单的记录,而且还未必准确。还是一边看列子,或者直接打开一个网页,不会就查标签含义来的印象深刻和收获大呢。 安利一个网站:http://www.w3school.com.cn/tags/语法规则什么是 HTML?HTML 是用来描述网页的一种语言。HTML 指的是超文本标记语言 (Hyper Text Ma原创 2017-05-04 21:11:09 · 891 阅读 · 0 评论 -
rvest爬取链家网数据
一、工具说明火狐浏览器fireBug插件R软件revest包、stringr包二、数据说明想要获取链家网南京楼盘的信息,如:楼盘名称、地址、面积、是否在售、住宅性质、价格。最后在R里生成数据框 三、代码Part1:加载包,rvest用于爬取数据、stringr处理字符串# 加载包 ------------------------------------------#加载rvest,没有原创 2017-05-07 21:59:50 · 1160 阅读 · 3 评论 -
RPackage003---tryCatch和log4r生成报错日志
Intro工作中实际接触到的,记录下~实际编程中似乎常用,我这个调包党还是有点low呀Code# 利用tryCatch和log4r包记录报错信息 -------------------------------------------------#把报错信息储存在全局变量problem中tryCatch({ for (i in 1:10) { j = j + 1 print(1原创 2017-05-08 11:46:23 · 1366 阅读 · 0 评论 -
RNote106---Windows定时运行R脚本
配置环境变量先配置环境变量 右击计算机—属性—更改设置—高级—环境变量 R Code然后写R的脚本 有个坑:路径要写完整,不能用.简写write.table(x=1:10,"D:/Documents/My R/Learning_R/timed_task/test.txt",row.names = F)BAT脚本接着bat脚本,txt另存为即可。原理不知,依葫芦画瓢Rscript -e "sou原创 2017-05-08 17:40:31 · 1330 阅读 · 0 评论 -
RNote111---[转载]R语言内存管理
转自:R语言内存管理 参考资料2 R中的对象(比如矩阵)在内存中存于两种不同的地方:第一种是堆内存(heap),其基本单元是“Vcells”,每个大小为8字节,新来一个对象就会申请一块空间,把值全部存在这里,和C里面的堆内存很像;第二种是地址对(cons cells),主要用来存储地址信息,最小单元一般在32位系统中是28字节、64位系统中是56字节。ls()来查看当前所有对象名,对于每一个转载 2017-05-13 17:40:45 · 1059 阅读 · 0 评论 -
R连接MongoDb
1、RMongo1)连接方式&查询语句library(RMongo)###database name,host,portmongo <- mongoDbConnect(dbName = "mydbname",#库名 host = ""127.0.0.1"",#主机名 port = "27017"#默认端口号原创 2017-06-29 14:20:55 · 2512 阅读 · 0 评论 -
ggplot2画中地图
闲着无聊,画着玩~还是实际工作中能够用到,才会更加熟悉。 还是要专注更重要的部分,这些当做消遣和游戏吧 主要参考资料: 刘万祥老师的新浪博客 R语言中文社区的知乎专栏code# 画省热力图 -------------------------------------------------------------------##.shp shape文件###china_map@data:数原创 2017-05-08 10:07:51 · 11963 阅读 · 13 评论 -
RNote109---linux环境下安装R包
报错处理连接mirror失败#查看配置信息 ?download.file#可能是linux没有安装wgetyum install wget相关包安装1、安装mongolite包#linux版本为CentOS,需要安装cyrus-sasl-develyum install openssl-develyum install cyrus-sasl-devel原创 2017-07-27 13:56:17 · 2820 阅读 · 0 评论 -
RPackage005---Rwordseg
直接上代码,有问题看文档,大部分能解决吧~# 安装说明 --------------------------------------------------------------------## https://r-forge.r-project.org/R/?group_id=1054 官网下载手动安装## rJava不赘,网上有教程library(rJava) library(Rwo原创 2017-10-13 15:47:39 · 461 阅读 · 0 评论 -
RNote108---显示R程序的运行进度
本来是想找显示shiny中程序运行进度的方法,不过只看到显示循环执行进度的~Whatever,记录下吧一、tcltk包案例:library(tcltk) u <- 1:2000 #开启进度条 pb <- tkProgressBar(title="进度",label="已完成 %", min=0, max=100, initial = 0, width = 300) for(i i原创 2017-09-18 15:18:46 · 11697 阅读 · 0 评论 -
Shiny03---实现单选框联动
先上代码,其他的再说代码ui <- fluidPage( sidebarPanel( #侧边栏的控制键 width = 3,#设置侧边栏的宽度 p("The checkbox group controls the select input"), radioButtons("inCheckboxGroup", "Input checkbox",原创 2017-09-19 20:01:00 · 2469 阅读 · 2 评论 -
Shiny04---DT和进度条在shiny中的应用
找了半天终于找到了shiny中显示进度条的方法,直接上demo,记录下。UI脚本### UIlibrary(shiny)ui = fluidPage( sidebarPanel( #侧边栏的控制键 width = 3,#设置侧边栏的宽度 #时间控件 dateRangeInput( inputId = "date", label = h2原创 2017-09-19 15:01:11 · 1379 阅读 · 0 评论 -
Shiny05---withProgress显示进度条
翻译的一塌糊涂,专业词汇实在是看不懂,目前也就只能凑活把功能实现咯REFhttps://shiny.rstudio.com/reference/shiny/latest/withProgress.html参数设置函数选项withProgress(expr, min = 0, max = 1, value = min + (max - min) * 0.1, message = NULL, deta原创 2017-09-18 18:01:20 · 2540 阅读 · 0 评论