R语言练习-利用决策树模型分析泰坦尼克生还率
一、数据预处理
数据来源:http://biostat.mc.vanderbilt.edu/wiki/Main/DataSets中的titanic3.csv
本文将要用到的数据列:
列名 | 含义 |
---|---|
pclass | 将1/2/3等舱分别保存在1/2/3 |
survived | 是否生还 |
name | 姓名 |
sex | 性别 |
age | 年龄 |
sibsp | 同城的兄弟或者配偶数 |
parch | 同城的父母或者子女数 |
ticket | 票号 |
fare | 票价 |
cabin | 舱号 |
embarked | 登陆地:C(Cherbourg,瑟堡),Q(Queenstown,皇后镇),S(Southampton,南安普顿) |
1.读入数据,将不适合的列删除,保留适合进行建模的列。
*> #读入数据
titanic<-read.csv(“E:/数据分析/编程/R/file/数据/titanic3.csv”)
去掉后3列,不适合建模
titanic<-titanic[,!names(titanic)%in%c(“body”,”boat”,”home.dest”)]
str(titanic)*
2.转换每列的数据类型转换成适合的数据类型,例如pclass现在是int型,需要转换成字符型
titanic pclass<−as.factor(titanic pclass)
titanic nam