mydata<-mydata=data.frame(X=c(1:10),Y=c(21:30))
基本数据管理
raname(datafram,c(oldname='newname',......)
mydata=data.frame(X=c(1:10),Y=c(21:30))
mydata$X
stock=read.csv('sample.csv')
is.na(stock)
na.omit(mydata) #去除NA值
as.Date(c('2010-03-22','2019-03-22'),'%m%d%Y') #字符串转换为日期
# format() 用法相似
Sys.Date() #返回当天的日期
difftime('2016-06-10',Sys.Date()) #计算时间间隔
order_test=test[order(test$high),] #排序 -表示降序
order_open=test[order(-open),]
#选取子集 data.frame[row indices,row indices]
indice=test[c(1:20),'open']
colomns_names=names(test) #生成所有列明
test[which(test$open>15 & test$low>18),]
subset(test,open>15 & low>18)
#数据集的合并
merge(A,B,by="ID")
cbind(A,B) #不需要指定公共的索引
rbind(A,b)
paste(c(1:2),c('we','ee')) #相当python zip
#随机抽样
mysample=test[sample(:nrow(test),100,replace=FALSE)]
#使用SQL语句操作数据框
library(sqldf)
sql_data=sqldf('select * from my_test where open>15 order by high',row.names=TRUE)