Datawhale 数据分析 第四次任务 模型搭建


下面我们将搭建一个预测模型,运用机器学习的方式来为泰坦尼克船只做一个预测,我们在测试集的数据中来预测哪些乘客将会存活,哪些乘客将遭遇不幸。然后我们会对我们的模型做一个评价。
这一章的内容可以学习到数据建模以及模型评价的知识,算是进阶的内容,为之后的数据分析课程打下基础。

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import Image
%matplotlib inline
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6) # 设置输出图片大小
# 读取训练数集
train = pd.read_csv('train.csv')
train.shape
#(891, 12)
train.head()

在这里插入图片描述

特征工程

这一部分是对之前的学习内容的简单回顾

任务一:缺失值填充
  1. 对分类变量缺失值:填充某个缺失值字符(NA)、用最多类别的进行填充
  2. 对连续变量缺失值:填充均值、中位数、众数
# 对分类变量进行填充
train['Cabin'] = train['Cabin'].fillna('NA')
train['Embarked'] = train['Embarked'].fillna('S')
# 对连续变量进行填充
train['Age'] = train['Age'].fillna(train['Age'].mean())
# 检查缺失值比例
train.isnull().mean().sort_values(ascending=False)

在这里插入图片描述

任务二:编码分类变量
# 取出所有的输入特征
data = train[
Datawhale数据分析课程是一门专门教授数据分析的课程。在这门课程中,学生将学习各种数据处理和分析的技巧,包括数据的载入、基本操作、可视化展示等。在第一章的学习中,学生主要学习了如何载入数据以及如何查看数据的基本信息,例如平均值、标准差、最大最小值,还学习了数据的相加和删减等基本操作,这些都为后面进行数据分析打下了基础。此外,数据可视化也是数据分析过程中非常重要的一部分。通过绘图展示数据,可以帮助人们更直观地理解数据,从而得出更准确的结论。良好的数据可视化往往需要一些技巧,比如可以使用matplotlib和seaborn等库来进行可视化操作。例如,在任务六中,使用seaborn库的kdeplot函数对泰坦尼克号数据集中不同年龄的人生存与死亡人数分布情况进行了可视化展示。此外,Pandas库中的stack()和unstack()方法也是数据分析中常用的工具,用于数据的重构、聚合与运算。通过使用这些方法,可以对数据进行更灵活的处理和分析。例如,在任务一中,通过学习教材《Python for Data Analysis》和进行相关的搜索,可以了解到GroupBy机制在数据分析中的应用。总之,Datawhale数据分析课程提供了丰富的知识和技巧,帮助学生掌握数据分析的基本原理和实践技能。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Datawhale数据分析课程01](https://blog.csdn.net/m0_71038676/article/details/124809826)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Datawhale数据分析课程第二章](https://blog.csdn.net/miaochangq/article/details/108077004)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值