在统计学章节中讨论过的内容,我们有两种变量分类和数字,这些变量又进一步细分为序数和名义,以及数字变量的连续和离散,如图所示。
分类名义变量
顺序变量的定义与分类变量类似;这里需要提到的是,它没有任何特定的顺序。一个例子是我们不能在这里假设男性大于女性。我们不能假设一个类别大于或小于其他类别,而且它们没有任何特定的顺序。
分类顺序变量
分类的、序数的变量可以按特定的顺序排列。一个例子是,如果你被要求填写餐厅的食物和服务的反馈,这可能是诸如美味、好、更好、更差和最差。这有一个从正到负的特定顺序,或者另一个例子是指一个班级的成绩。
数值连续变量
数字连续变量有无限的值。这方面的例子可以是股票价格、身高、体重、年龄,等等。这些值没有任何有限的区间。
数值离散变量
数值离散型变量有有限的值。一个例子是你有多少辆汽车或你有多少个孩子。它有一个确定的值,要么是0,1,2,等等。我们不可能有1.24辆汽车或1.05个孩子。
在泰坦尼克号数据集中有哪些不同的变量,并直观地看到它们的数据类型表示。我们可以看到这些变量的单独表示。
-
Name
:分类名义变量。 -
Surviver
:分类名义变量。 -
Pclass
:分类顺序变量。 -
Sex
:分类名义变量。 -
Embark
:分类名义变量。 -
Age
:数值连续变量。 -
SibSp
:数值离散变量。 -
Parch
:数值离散变量。 -
Fare
:数值连续变量。