[Day 4] 基本数据管理

基本数据管理

1、导入一个例子

2、创建新变量

再典型的研究项目中,需要创建新变量或对现有变量进行变换,通过
变量名<-表达式语句来完成,但要注意的一点是,表达式中的数据要指明来源否则会报错,指明来源的方式有以下三种,推荐使用transform()函数。

mydata<-data.frame(x1=c(2,2,6,4),x2=c(3,4,2,8))
mydata$sumx<-mydata$x1+mydata$x2
mydata$meanx<-(mydata$x1+mydata$x2)/2

attach(mydata)
mydata$sumx<-x1+x2
mydata$meanx<-(x1+x2)/2
detach(madata)

mydata<-transform(mydata,sumx=x1+x2,meanx=(x1+x2)/2)

3、变量重编码

(1)将连续型变量修改为类别值

语法:variable[condition]<-expression
当变量满足条件时才赋值表达式

(2)将误编码的值替换为正确值

(3)基于分数线创建一个表示及格/不及格的变量

用within()函数创建空变量而后修改数据框再添加到变量中。
within()函数的使用如下

leadership<-within(leadership,{agecat<-NA
                               agecat[age>75]<-'Elder'
                               agecat[age>=55&age<=75]<-'Middle Aged'
                               agecat[age<55]<-'Young'})

4、变量的重命名

(1)函数fix(data.frame)调用一个交互式的编辑器,可在其上直接重命名变量。
(2)函数names()以编程的方式来重命名变量

names(leadership)
names(leadership)[2]<-'testDate'

5、缺失值

(1)R中的字符型和数值型数据的缺失值符号都是NA(Not Available )
函数 is.na()可用于检测缺失值是否存在,存在则显示出TRUE,不存在则显示出FALSE。
记住,缺失值被认为是不可比的,即使是自身也不可比。另外,R不把无限的或者不可能出现的数值标记为缺失值,可以is.infinite()或is.nan()进行尝试。
(2)再分析中要排除缺失值
应用函数 na.omit()移除所有含有缺失值的观测

newdata<-na.omit(leadership)

6、日期值

几个函数
(1)as.Date(x,‘input_format’)
将字符串形式的日期值转化为以数值形式存储的日期变量

>strDate<-c('01/05/1965')
>date<-as.Date(strDate,'%m/%d/%Y')
[1]1965-01-05

(2)sys.Date()
返回当前的日期
(3)date()
返回当前的日期和时间
(4)format(x,format=‘output_format’)
输出指定格式的日期值
(5)difftime(startday,endday,units=’’)
对日期值执行运输,测算sd和ed之间相隔的天数
(6)as.character()
将日期值转换为字符型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值