2.2.5 因子(factor())
变量可归结为名义型、有序型或连续型变量。下面解释一下这三种变量:
·名义型变量:名义型变量是指没有顺序之分的类别变量。像2.1节中的表里面的糖尿病类型Diabetes(Type1、Type2)是名义型变量。即使在数据中Type1编码为1,而Type2编码为2,这也并不意味二者是有顺序的。
·有序型变量:有序型变量是指一种顺序关系,而非数量关系。病情Status(poor、improved、excellent)是顺序型的变量。我们明白,病情为poor(较差),病人的状态不如improved(好转),但是又不如excellent(优秀),即顺序为:poor(较差)→improved(好转)→excellent(优秀)。
·连续型变量:连续型变量是指可以呈现某个范围内的任意值,并同时表示了顺序和数量。年龄(age)就是一个连续型变量,它能够表示像14.5或22.8这样的值以及其间的其他任意值。很清楚,15岁的人比14岁的人年长1岁。
也许以上变量对于新手来说比较难以理解,不过没关系,在以后的使用过程中,用多了就自然而然的就熟悉了。这里不需要大家死记硬背,大家大概了解一下即可。以后如果不明白或忘记这些变量是什么意思了,在回过头来看一下就可以了,这也是一种学习方法。
类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。因子在R中是非常重要的,因为它决定了数据的分析方式以及如何进行视觉呈现。大家在以后的小节中将会看到这样的例子,到时候大家在回头了解一下这些变量表示的意思是什么即可。
函数factor()以一个整数向量的形式存储类别值,整数的取值范围是(l~k)其中k是名义型变量中唯一值的个数&