基本数据管理
1、导入一个例子
2、创建新变量
再典型的研究项目中,需要创建新变量或对现有变量进行变换,通过
变量名<-表达式语句来完成,但要注意的一点是,表达式中的数据要指明来源否则会报错,指明来源的方式有以下三种,推荐使用transform()函数。
mydata<-data.frame(x1=c(2,2,6,4),x2=c(3,4,2,8))
mydata$sumx<-mydata$x1+mydata$x2
mydata$meanx<-(mydata$x1+mydata$x2)/2
attach(mydata)
mydata$sumx<-x1+x2
mydata$meanx<-(x1+x2)/2
detach(madata)
mydata<-transform(mydata,sumx=x1+x2,meanx=(x1+x2)/2)
3、变量重编码
(1)将连续型变量修改为类别值
语法:variable[condition]<-expression
当变量满足条件时才赋值表达式
(2)将误编码的值替换为正确值
(3)基于分数线创建一个表示及格/不及格的变量
用within()函数创建空变量而后修改数据框再添加到变量中。
within()函数的使用如下
leadership<-within(leadership,{agecat<-NA
agecat[age>75]<-'Elder'
agecat[age>=55&age<=75]<-'Middle Aged'
agecat[age<55]<-'Young'})
4、变量的重命名
(1)函数fix(data.frame)调用一个交互式的编辑器,可在其上直接重命名变量。
(2)函数names()以编程的方式来重命名变量
names(leadership)
names(leadership)[2]<-'testDate'
5、缺失值
(1)R中的字符型和数值型数据的缺失值符号都是NA(Not Available )
函数 is.na()可用于检测缺失值是否存在,存在则显示出TRUE,不存在则显示出FALSE。
记住,缺失值被认为是不可比的,即使是自身也不可比。另外,R不把无限的或者不可能出现的数值标记为缺失值,可以is.infinite()或is.nan()进行尝试。
(2)再分析中要排除缺失值
应用函数 na.omit()移除所有含有缺失值的观测
newdata<-na.omit(leadership)
6、日期值
几个函数
(1)as.Date(x,‘input_format’)
将字符串形式的日期值转化为以数值形式存储的日期变量
>strDate<-c('01/05/1965')
>date<-as.Date(strDate,'%m/%d/%Y')
[1]1965-01-05
(2)sys.Date()
返回当前的日期
(3)date()
返回当前的日期和时间
(4)format(x,format=‘output_format’)
输出指定格式的日期值
(5)difftime(startday,endday,units=’’)
对日期值执行运输,测算sd和ed之间相隔的天数
(6)as.character()
将日期值转换为字符型