R语言
文章平均质量分 62
拦羊嗓子回牛声
一拂额前发,深藏功与名
展开
-
R语言学习-创建新的数据框
output = data.frame(nodeID = 0,Weight = 0,seq = 0) #建立空的输出序列output = output[-1,] #清空数据原创 2017-06-28 16:11:39 · 3649 阅读 · 0 评论 -
R语言-关键节点问题-方案三
依旧是无向图关键节点问题,此方案使用一次性计算权重,排序输出,胜在运算快,避免循环。权重计算公式:节点权重=节点度+直接关联节点的度权重计算比较粗糙,仅为试水,并为后面的方案做铺垫。library(dplyr)library(RMySQL) # 载入RMySQL包conn <- dbConnect(MySQL(),dbname = "NE原创 2017-07-06 11:08:04 · 666 阅读 · 0 评论 -
R语言-关键节点问题-方案四-K-shell分解法
K-shell分解法,O(N) step 1 查找网络中所有度为1的节点,并将这些节点及连接的边去掉。 step 2 经过步骤1后,网络中可能会出现新的度为1的节点,循环执行步骤1,直至所剩的网络中没有度为1的节点为止。 step 3 去掉网络中剩余度为2的节点,一次类推,重复循环执行。 step 4 重复以上操作,直至网络中没有节点为原创 2017-07-10 11:00:11 · 3228 阅读 · 0 评论 -
R语言学习-复杂网络中心度计算
中心度概念说明:指标名称概念比较实际应用点度中心度在某个点上,有多少条线强调某点单独的价值★作为基本点的描述接近中心度该点与网络中其他点距离之和的倒数,越大说明越在中心,越能够很快到达其他点强调点在网络的价值,越大,越在中心★★基本描述,用户价值中间中心度代表最短距离是否都经过该点,如果都经过说明这个点原创 2017-07-18 16:23:46 · 13452 阅读 · 1 评论 -
R语言学习-查看数据头和尾
#构造数据data <- cbind(c(1:10),c(10:1))data [,1] [,2] [1,] 1 10 [2,] 2 9 [3,] 3 8 [4,] 4 7 [5,] 5 6 [6,] 6 5 [7,] 7 4 [8,] 8 3 [9,] 9原创 2017-07-19 09:42:27 · 8086 阅读 · 0 评论 -
R语言学习-问题解决-reached getOption("max.print")
#Rstudio默认屏幕打印变量数据行*列不超过1000,超出部分会被省略#构造数据data <- cbind(c(1:600),c(600:1),c(0:9))data [,1] [,2] [,3] [1,] 1 600 0 [2,] 2 599 1 [3,] 3 598 2 [4,] 4 597 3原创 2017-07-19 10:02:37 · 29659 阅读 · 3 评论 -
R语言学习-问题解决-Error in output$nodeID : $ operator is invalid for atomic vectors
问题:在使用"$"符查看变量列的时候,报错Error in output$nodeID : $ operator is invalid for atomic vectorsoutput <- data$scoreoutput <- cbind(nodeID=dat$nodeID,score=output)head(output$nodeID) Error in output$nod原创 2017-07-19 10:46:15 · 41630 阅读 · 2 评论 -
R语言学习-创建新的矩阵matrix
A <- matrix(nrow=0,ncol=2) #创建空的矩阵A [,1] [,2]B <- matrix(c(1:10),ncol=2) #初始化矩阵B [,1] [,2][1,] 1 6[2,] 2 7[3,] 3 8[4,] 4 9[5,] 5 10C <- data.fram原创 2017-07-24 15:58:49 · 42174 阅读 · 0 评论 -
R语言学习-table()结果提取
test <- c(1,2,3,2,1,1,5,6,4,5,1)test [1] 1 2 3 2 1 1 5 6 4 5 1test1 <- table(test)test1test1 2 3 4 5 6 #test中的元素4 2 1 1 2 1 #各个元素出现的频率#1.提取table()中的元素names(test1)[1] "1" "2" "3" "4" "5"原创 2017-08-02 09:38:29 · 70679 阅读 · 7 评论 -
R语言学习-交集和并集
两组向量求交集和并集a <- c(1,2,3,4,1)a[1] 1 2 3 4 1b <- c(1,5,7)b[1] 1 5 7intersect(a,b) #交集[1] 1union(a,b) #并集[1] 1 2 3 4 5 7原创 2017-08-02 10:07:58 · 12479 阅读 · 1 评论 -
R语言学习-提取igraph的节点和边
网络分析的时候,可能需要提取出网络中的节点或者边,igraph包中其实提供了很多可用的函数。#创建网络方法之一:data.framedata<-data.frame(id1=c(1,1,2,3,4,4,5,5,6,6,7,8,8,9,10,5,15,6,7,16),id2=c(2,11,11,12,13,14,15,16,7,15,16,17,18,18,9,19,19,19,19,19))原创 2017-08-04 16:08:08 · 14783 阅读 · 1 评论 -
cbind()/data.frame()构建数据框字符串chr变因子Factor问题解决
cbind() 帮助文档中有这么一段话:The cbind data frame method is just a wrapper for data.frame(..., check.names = FALSE). This means that it will split matrix columns in data frame arguments, and convert characte原创 2017-08-14 11:44:42 · 6674 阅读 · 0 评论 -
R语言-决策树-员工离职预测训练赛
题目:员工离职预测训练赛网址:http://www.pkbigdata.com/common/cmpt/员工离职预测训练赛_竞赛信息.html要求:数据主要包括影响员工离职的各种因素(工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等)以及员工是否已经离职的对应记录。数据分为训练数据和测试数据,分别保存在pfm_train.csv和pfm_test.csv两原创 2017-09-11 10:50:00 · 2776 阅读 · 0 评论 -
R语言-向量机-员工离职预测训练赛
题目:员工离职预测训练赛网址:http://www.pkbigdata.com/common/cmpt/员工离职预测训练赛_竞赛信息.html要求:数据主要包括影响员工离职的各种因素(工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等)以及员工是否已经离职的对应记录。数据分为训练数据和测试数据,分别保存在pfm_train.csv和pfm_test.csv两原创 2017-09-11 11:00:25 · 1311 阅读 · 0 评论 -
R语言学习-Group By的实现
library(dplyr)data <- data.frame(year = rep(2016:2017,6),month = seq(1:12),sales=rep(c(10,20,30,40),3)) year month sales1 2016 1 102 2017 2 203 2016 3 304 2017 4原创 2017-07-05 14:06:47 · 83212 阅读 · 2 评论 -
R语言学习-JOIN的各种实现
library(data.table)library(dplyr)A<-data.table(X1=c("a","b","c","d","e"),Y1=c(1,2,3,4,5),Z1=c("num1","num2","num3","num4","num5"))AB<-data.table(X2=c("c","d","e","f"),Y2=c(4.4,5.5,6.6,7.7))B#LEF原创 2017-07-05 13:44:49 · 15212 阅读 · 1 评论 -
R语言学习-读取数据库数据-MYSQL
library(RMySQL) # 载入RMySQL包conn dbSendQuery(conn, "SET @@sql_mode=ANSI;")原创 2017-06-29 11:25:58 · 3158 阅读 · 0 评论 -
R语言学习-Group by的实现
library(dplyr) node_rel node_rel #循环node_del for (m in 1:length(node_del)) { node_del_tmp node_rel } node_rel View(node_rel)原创 2017-06-29 16:15:53 · 4757 阅读 · 0 评论 -
R语言-关键节点问题-方案二
紧接方案一由于方案一每次输出一个权重最高结点,然原始网络规模达100W,到假设一秒输出一个结点也约需要277小时,到中间阶段,有很多结点具有相同的权重。因此做性能优化,每次输出权重最大的全部结点,预计可以吧时间缩短在3小时以内。缺点是同属最大权重的结点间可能相关,导致结果不是特别精准,尤其随着权重变小,规模变大,尤其明显,所以设置当最大权重为5的时候停止输出。实现代码:libr原创 2017-06-30 10:41:56 · 1042 阅读 · 0 评论 -
R语言-关键节点问题-方案一
问题说明:社交网络以及其他各种各样的网络,在社会经济、自然科学等领域中发挥着越来越大的作用,而其中一个很核心的问题是了解一个节点在网络中发挥的作用。比如SARS的传播,可能香港一个超级传播者带来的影响比其他100甚至1000个人还多;一条谣言的传播,一个核心大号的转发可能带来巨大的影响。因此需要我们有一种能力,可以从生物的大规模基因调控网络中,找到导致疾病的重要基因;从大规模的社交网络中,找到原创 2017-06-28 16:37:07 · 1617 阅读 · 0 评论 -
R语言学习-一行/列转多行
> A<-seq(1:20)> A [1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20> class(A)[1] "integer"> B<-matrix(A,nr=5)> B [,1] [,2] [,3] [,4][1,] 1 6 11 16[2,] 2 7原创 2017-06-30 15:58:19 · 10329 阅读 · 0 评论 -
R语言学习-数据导入数据库-MYSQL
#将变量中的数据导入数据库conn <- dbConnect(MySQL(),dbname = "NETWORKS",username = "root") # 建立数据库连接dbSendQuery(conn, "SET @@sql_mode=ANSI;") # 启动非严格模式dbSendQuery(conn, "SET NAMES GBK") # win7环境下如果汉字乱码,就原创 2017-06-30 16:52:41 · 3750 阅读 · 0 评论 -
R语言-股票数据库(1)-股票上市日期
############################################################################################################################################获取股票上市日期##################################################原创 2017-07-11 10:57:24 · 1045 阅读 · 0 评论 -
R语言-股票数据库(2)-股票日K线信息-未复权
注:1、此方法获得的股票价格是实际价格,未进行前/后复权 2、只举例深市的获取方法,沪市的同理 3、步骤:先从网上爬取每个股票的交易历史,存为csv格式文件;读取csv文件数据加载至mysql数据库###################################################################################原创 2017-07-11 11:08:17 · 1100 阅读 · 0 评论 -
R语言-股票数据库(3)-股票日K线信息-前复权-Wind
前文股票历史交易数据是未复权的,在此使用WIND数据库获取复权后价格安装Rstudio: https://www.rstudio.com/products/rstudio/download/安装WIND客户端: WAPI.PE.exe用户名:略 密码:略WindR 读取数据通过下面7 个函数实现的。w.wsd 读取历史序列数据,包括日间的行情数据,基本面数据以及技术数据指标。原创 2017-07-11 11:22:16 · 2020 阅读 · 0 评论 -
R语言-股票数据库(4)-股票行业和概念板块数据-Wind
################################################################################################################## 行业数据 ###################################################################原创 2017-07-11 11:26:55 · 3480 阅读 · 0 评论 -
R语言-时间序列-销量预测
数据源:day sales2015/1/1 1196132015/2/1 584812015/3/1 903502015/4/1 1519752015/5/1 2014642015/6/1 2180752015/7/1 2974482015/8/1 3330362015/9/1 5241852015/10/1 6744262015/11/1 6526502015/12/1原创 2017-07-04 11:41:03 · 6451 阅读 · 0 评论 -
R语言学习-创建空矩阵
方法一:x <- rep(0,15)dim(x) <- c(3,5)x [,1] [,2] [,3] [,4] [,5][1,] 0 0 0 0 0[2,] 0 0 0 0 0[3,] 0 0 0 0 0方法二:x <- matrix(0,3,5)x [,1] [,2]原创 2017-07-04 14:34:12 · 28544 阅读 · 1 评论 -
R语言学习-问题解决-Error in `[<-.ts`(`*tmp*`,...only replacement of elements is allowed
Error in `[<-.ts`(`*tmp*`, ri, value = c(2.7110254334953, 2.95418132827278, : only replacement of elements is allowed原创 2017-07-05 10:55:08 · 39376 阅读 · 0 评论 -
R语言-逻辑回归+主成分分析-员工离职预测训练赛
题目:员工离职预测训练赛网址:http://www.pkbigdata.com/common/cmpt/员工离职预测训练赛_竞赛信息.html要求:数据主要包括影响员工离职的各种因素(工资、出差、工作环境满意度、工作投入度、是否加班、是否升职、工资提升比例等)以及员工是否已经离职的对应记录。数据分为训练数据和测试数据,分别保存在pfm_train.csv和pfm_test.csv两原创 2017-09-11 11:10:59 · 7576 阅读 · 1 评论