R语言练习-利用决策树模型分析泰坦尼克生还率(3)

本文是R语言练习的第三部分,通过分析泰坦尼克乘客的票号来识别家庭成员,并根据年龄区分父母和子女。接着,计算了父母和子女的平均生还率,并用ctree模型进行生还率预测。
摘要由CSDN通过智能技术生成

R语言练习-利用决策树模型分析泰坦尼克生还率

三、利用ticket识别家庭,后分析

1.添加家庭号

#计算各家庭成员的生还率
f$train$type<-"T"
f$validation$type<-"V"
all<-rbind(f$train,f$validation)
ctree_model<-ctree(
    survived~pclass+sex+age+sibsp+parch+fare+embarked,
    data=f$train
  )
all$prob<-sapply(
  predict(ctree_model,newdata=all,
                     type="prob"),
  function(result){
   result[1]})
#添加家庭ID
library(plyr)
family_idx<-0
ticket_based_family_id<-ddply(all,.(ticket),function(rows){
   
  family_idx<<-family_idx+1  #family_idx是在函数外部声明的变量,使用<<-运算符进行赋值
  return(data.frame(f
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
泰坦尼克号存活预测是一个经典的数据科学项目,通常在Kaggle这样的数据竞赛平台上进行。决策树模型在该任务中被广泛应用,因为它直观易懂,能够处理分类问题,并且可以解释各个特征对预测结果的影响。 **决策树模型简介**: - 决策树是一种监督学习算法,它模拟了人类做出决策的过程,将数据集分割成多个小的子集,每个子集对应树的一个分支,直到达到某个终止条件(如达到最小样本数或所有样本属于同一类别)。 - 在泰坦尼克号案例中,决策树会根据乘客的年龄、性别、票价等级、登船地点等特征,预测他们在沉船事故中的生存。 **模型构建步骤**: 1. 数据加载和预处理:获取包含乘客基本信息的CSV文件,清洗缺失值、异常值,以及对非数值特征进行编码。 2. 特征选择:分析特征与存活的相关性,可能保留性别、年龄、社会经济地位等关键特征。 3. 模型训练:使用训练数据集构建决策树,调整参数如最大深度、最小样本分裂等。 4. 模型评估:用交叉验证的方式,在测试数据上计算准确、精度、召回等指标。 5. 模型优化:可能使用集成方法如随机森林或梯度提升树,提高预测性能。 **Kaggle上的应用**: - 在Kaggle上,参赛者会提交预测结果,Kaggle会根据给定的标准(如log损失或准确)进行评分,排名前几位的解决方案通常会分享他们的代码和思路,供其他人学习。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值