模型建立和评估

最新推荐文章于 2022-05-26 21:52:04 发布

文翰翰

最新推荐文章于 2022-05-26 21:52:04 发布

阅读量277

点赞数

文章标签：数据分析

本文链接：https://blog.csdn.net/weixin_46167028/article/details/108288340

版权

本文详细介绍了模型建立和评估的过程，包括特征工程中的缺失值填充和分类变量编码，接着讨论了模型搭建，如选择合适的模型、数据集切割方法以及模型创建中的逻辑回归和决策树。此外，还深入探讨了模型评估，涉及交叉验证、混淆矩阵和ROC曲线，为理解模型的泛化能力和性能提供了实用的评估手段。

摘要由CSDN通过智能技术生成

模型搭建和评估

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from IPython.display import Image

plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号
plt.rcParams['figure.figsize'] = (10, 6)  # 设置输出图片大小

# 读取训练数集
train = pd.read_csv('train.csv')
train.head()

	PassengerId	Survived	Pclass	Name	Sex	Age	SibSp	Ticket	Fare	Cabin	Embarked
0	1	0	3	Braund, Mr. Owen Harris	male	22.0	1	A/5 21171	7.2500	NaN	S
1	2	1	1	Cumings, Mrs. John Bradley (Florence Briggs Th...	female	38.0	1	PC 17599	71.2833	C85	C
2	3	1	3	Heikkinen, Miss. Laina	female	26.0	0	STON/O2. 3101282	7.9250	NaN	S
3	4	1	1	Futrelle, Mrs. Jacques Heath (Lily May Peel)	female	35.0	1	113803	53.1000	C123	S
4	5	0	3	Allen, Mr. William Henry	male	35.0	0	373450	8.0500	NaN	S

特征工程

任务一：缺失值填充

对分类变量缺失值：填充某个缺失值字符(NA)、用最多类别的进行填充
对连续变量缺失值：填充均值、中位数、众数

# 对分类变量进行填充
train['Cabin'] = train['Cabin'].fillna('NA')
train['Embarked'] = train['Embarked'].fillna('S')

# 对连续变量进行填充
train['Age'] = train['Age'].fillna(train['Age'].mean())

# 检查缺失值比例
train.isnull().mean().sort_values(ascending=False)

Embarked       0.0
Cabin          0.0
Fare           0.0
Ticket         0.0
Parch          0.0
SibSp          0.0
Age            0.0
Sex

最低0.47元/天解锁文章

文翰翰

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
模型建立和评估

模型搭建和评估import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as pltfrom IPython.display import Imageplt.rcParams['font.sans-serif'] = ['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus'] = False # 用来正常显示负号plt.rc
复制链接

扫一扫