1.变量分类
- 名义型变量:比如省份
- 有序型变量:如:good、better、best
- 连续型变量:如年龄
2.因子
在R中名义型变量和有序型变量称为因子(factor)。这些分类变量的可能值称为一个水平(level),例如good、better、best,都称为一个level。有这些水平值构成的向量就称为因子。
创建因子:
f <- factor(c(“red”,“red”,“green”,“blue”,“green”,“blue”,“blue”))
week <- factor(c(“Mon”,“Fri”,“Thu”,“Wed”,“Mon”,“Fri”,“Sun”),ordered = T,levels=c(“Mon”,“Tue”,“Wed”,“Thu”,“Fri”,“Sat”,“Sun”)) #指定level,并对其排序
table函数进行频数统计,如:
mtcars$cyl #mtcars中的cyl列
table(mtcars$cyl) #对mtcars中的cyl列进行频数统计,第一行是level,第二行显示频数。
num <-1:100
cut(num,c(seq(0,100,10))) #十个数为一级别
3.缺失数据
在R中,NA代表缺失值,NA是不可用,not available的简称,用来存储缺失信息。
这里缺失值NA表示没有,但注意没有并不一定就是0,NA是不知道是多少,也能是0,也可能是任何值,缺失值和值为