动手学数据分析-模型建立和评估

最新推荐文章于 2024-04-08 15:30:00 发布

私の未来は夢じゃない

最新推荐文章于 2024-04-08 15:30:00 发布

阅读量174

点赞数

分类专栏：笔记文章标签： python 机器学习

本文链接：https://blog.csdn.net/weixin_45064713/article/details/108274535

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

动手学数据分析-模型建立和评估

模型搭建和评估

模型搭建和评估

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

#图可以显示中文和负号
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 读取训练数集
train = pd.read_csv('train.csv')
train.shape

在这里插入图片描述

train.head()

在这里插入图片描述

特征工程

缺失值填充

对分类变量缺失值：填充某个缺失值字符(NA)、用最多类别的进行填充
对连续变量缺失值：填充均值、中位数、众数

# 对分类变量进行填充
train['Cabin'] = train['Cabin'].fillna('NA')
train['Embarked'] = train['Embarked'].fillna('S')

# 对连续变量进行填充
train['Age'] = train['Age'].fillna(train['Age'].mean())

train.isnull().mean()

在这里插入图片描述

编码分类变量

# 取出所有的输入特征
data = train[['Pclass','Sex','Age','SibSp','Parch','Fare', 'Embarked']]

# 进行虚拟变量转换
data = pd.get_dummies(data)
data.head()

在这里插入图片描述

模型搭建

切割训练集和测试集

from sklearn.model_selection import train_test_split

# 一般先取出X和y后再切割，有些情况会使用到未切割的，这时候X和y就可以用
X = data
y = train['Survived']

# 对数据集进行切割
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=0)

模型创建

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
lr = LogisticRegression()
lr.fit(X_train, y_train)

在这里插入图片描述

# 查看训练集和测试集score值
print("Training set score: {:.2f}".format(lr.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(lr.score(X_test, y_test)))

在这里插入图片描述

rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)

在这里插入图片描述

print("Training set score: {:.2f}".format(rfc.score(X_train, y_train)))
print("Testing set score: {:.2f}".format(rfc.score(X_test, y_test)))

在这里插入图片描述

输出模型预测结果

# 预测标签概率
pred_proba = lr.predict_proba(X_train)
pred_proba[:10]

在这里插入图片描述

模型评估

ROC曲线

from sklearn.metrics import roc_curve
fpr, tpr, thresholds = roc_curve(y_test, lr.decision_function(X_test))
plt.plot(fpr, tpr, label="ROC Curve")
plt.xlabel("FPR")
plt.ylabel("TPR (recall)")
# 找到最接近于0的阈值
close_zero = np.argmin(np.abs(thresholds))
plt.plot(fpr[close_zero], tpr[close_zero], 'o', markersize=10, label="threshold zero", fillstyle="none", c='k', mew=2)
plt.legend(loc=4)