分析泰坦尼克号获救问题

最新推荐文章于 2024-03-16 03:32:38 发布

wewinwe

最新推荐文章于 2024-03-16 03:32:38 发布

阅读量332

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/wewinwe/article/details/100006037

版权

泰坦尼克号获救问题

1逻辑回归分析
2、随机森林分析

1逻辑回归分析

1 代码

logistic regression.py

import pandas as pd

data = pd.read_csv("Titanic.csv")
# print(date.info())
# print(date.describe())
# print(date.head())
# 通过观察 Age，Cabin，Embarked是存在缺失值的
# print(date.isnull().any())

# 填充缺失值
data['Age'].fillna(data['Age'].mean(), inplace=True)
# print(date.isnull().any())
# print(date['Embarked'].value_counts())
data['Embarked'].fillna('S', inplace=True)

# 丢掉没用的Cabin数据
std_data = data.drop(['Cabin', 'PassengerId', 'Name', 'Ticket'], axis=1)
# print(std_data.isnull().any())

# 将一些特征的值是字符串，将其转化为数值类型这里有Sex, Embarked
std_data.loc[std_data['Sex'] == "male",  "Sex"] = 0
std_data.loc[std_data['Sex'] == "female",  "Sex"] = 1
# print(std_data['Sex'])
# print(std_data['Embarked'])
std_data.loc[std_data['Embarked'] == "S",  "Embarked"] = 0
std_data.loc[std_data['Embarked'] == "C",  "Embarked"] = 1
std_data.loc[std_data['Embarked'] == "Q",  "Embarked"] = 2
# print(std_data.head())

# 取出特征x和标签y
x = std_data.ix[:, std_data.columns != 'Survived']
y = std_data.ix[:, std_data.columns == 'Survived']
# print(x.head(), y.head())

# 特征选择
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0)
# print(x_train.shape, x_test.shape, y_train.shape, y_test.shape)


from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold
from sklearn.metrics import recall_score
import numpy as np

c_param_range = [0.01, 0.1, 1, 10, 100]
fold = K

最低0.47元/天解锁文章

wewinwe

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分析泰坦尼克号获救问题

逻辑回归分析泰坦尼克号获救问题1 代码2、输出结果C parameter: 0.01C parameter: 0.1C parameter: 1C parameter: 10C parameter: 1001 代码logistic regression.pyimport pandas as pddata = pd.read_csv("Titanic.csv")# print(date....
复制链接

扫一扫

专栏目录