R语言练习-利用决策树模型分析泰坦尼克生还率（1）

最新推荐文章于 2024-07-17 17:37:20 发布

宁静致远oTo

最新推荐文章于 2024-07-17 17:37:20 发布

阅读量2.9k

点赞数 1

分类专栏： r语言与数据分析文章标签： r语言数据机器学习-决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wu_jing_01/article/details/78709515

版权

使用R语言对泰坦尼克数据集进行预处理，包括删除无关列、处理异常值、转换数据类型，并采用caret库进行数据划分，为构建决策树模型做准备。

摘要由CSDN通过智能技术生成

R语言练习-利用决策树模型分析泰坦尼克生还率

一、数据预处理

数据来源：http://biostat.mc.vanderbilt.edu/wiki/Main/DataSets中的titanic3.csv
本文将要用到的数据列：

列名	含义
pclass	将1/2/3等舱分别保存在1/2/3
survived	是否生还
name	姓名
sex	性别
age	年龄
sibsp	同城的兄弟或者配偶数
parch	同城的父母或者子女数
ticket	票号
fare	票价
cabin	舱号
embarked	登陆地：C(Cherbourg，瑟堡），Q(Queenstown，皇后镇），S(Southampton,南安普顿）

1.读入数据，将不适合的列删除，保留适合进行建模的列。
*> #读入数据

titanic<-read.csv(“E:/数据分析/编程/R/file/数据/titanic3.csv”)

去掉后3列，不适合建模

titanic<-titanic[,!names(titanic)%in%c(“body”,”boat”,”home.dest”)]
str(titanic)*

2.转换每列的数据类型转换成适合的数据类型，例如pclass现在是int型，需要转换成字符型

titanic $pclass<-as.factor(titanic$ pclass)
titanic nam

最低0.47元/天解锁文章

宁静致远oTo

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。