3-3 实验2--探索性数据分析及特征工程（2课时）

最新推荐文章于 2023-04-08 23:22:21 发布

Cazkeen

最新推荐文章于 2023-04-08 23:22:21 发布

阅读量3.8k

点赞数 2

分类专栏： python 文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_51775736/article/details/116659914

版权

建议课时：2课时

练习目的

结合《第三章数据探索分析与特征工程》介绍的知识与技能，完成以下练习：

整个实验仍按照机器学习的基本工作流程来进行。

本次练习来源于Kaggle举办的一次数据竞赛，希望用机器学习来解决：预测“生”与“死”的二分类问题。为了对比与实验1的模型效果，我们仍使用决策树算法完成整个实验练习。

该竞赛提供了基础的训练集和测试集数据：

与实验1相同，为了便于进行模型评估，我们仅使用训练集train.csv完成整个实验练习。

使用pandas模块中read_csv函数载入train.csv文件数据，并预览数据。

说明： train.csv文件位于”./data/titanic/“目录下

## 练习代码
import pandas as pd
train=pd.read_csv("./data/titanic/.train.csv")
train.head(5)

使用DataFrame属性函数info()来统计每个变量中非空值的个数，以及当前的变量类型，并选择已满足建模条件的特征变量。

说明：
Pandas将数据载入为DataFrame的格式存储，会自动对变量的数据类型进行定义，但定义类型的合理与否，仍需我们根据变量实际的含义进行核对修正。所以在该任务中要求同学理解每个变量的含义，并对info()返回的变量类型进行检查。

变量含义说明

关注