R语言练习-利用决策树模型分析泰坦尼克生还率(1)

使用R语言对泰坦尼克数据集进行预处理,包括删除无关列、处理异常值、转换数据类型,并采用caret库进行数据划分,为构建决策树模型做准备。
摘要由CSDN通过智能技术生成

R语言练习-利用决策树模型分析泰坦尼克生还率

一、数据预处理

数据来源:http://biostat.mc.vanderbilt.edu/wiki/Main/DataSets中的titanic3.csv
本文将要用到的数据列:

列名 含义
pclass 将1/2/3等舱分别保存在1/2/3
survived 是否生还
name 姓名
sex 性别
age 年龄
sibsp 同城的兄弟或者配偶数
parch 同城的父母或者子女数
ticket 票号
fare 票价
cabin 舱号
embarked 登陆地:C(Cherbourg,瑟堡),Q(Queenstown,皇后镇),S(Southampton,南安普顿)

1.读入数据,将不适合的列删除,保留适合进行建模的列。
*> #读入数据

titanic<-read.csv(“E:/数据分析/编程/R/file/数据/titanic3.csv”)

去掉后3列,不适合建模

titanic<-titanic[,!names(titanic)%in%c(“body”,”boat”,”home.dest”)]
str(titanic)*

2.转换每列的数据类型转换成适合的数据类型,例如pclass现在是int型,需要转换成字符型

titanic pclass<as.factor(titanic pclass)
titanic nam

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值