泰坦尼克号生存预测的建模与评估
学习笔记
1、sklearn-learn学习路径
#sklearn模型算法选择路径图
Image('sklearn.png')
2、train_test_split
在sklearn_learn中切割数据集的方法是train_test_split,它可以将数组或矩阵拆分为随机训练和测试子集。
其中的参数train_test_split(array, test_size, train_size, random_state, shuffle, stratify)
arrays : 具有相同长度/形状的可索引序列[0]
允许的输入是列表、numpy 数组、scipy-sparse
矩阵或熊猫数据框。
test_size : 浮点数或整数,默认值=无
如果是float,应该在0.0到1.0之间,代表比例
要包含在测试拆分中的数据集。如果是 int,则代表
测试样本的绝对数量。如果没有,则该值设置为
火车大小的补充。如果 train_size
也是 None,它会
设置为 0.25。
train_size : 浮点数或整数,默认值=无
如果是浮点数,则应介于 0.0 和 1.0 之间并表示
包含在训练分割中的数据集的比例。如果
int,表示训练样本的绝对数量。如果没有,
该值自动设置为测试大小的补码。
random_state : int 或 RandomState 实例,默认值=无
在应用拆分之前控制应用于数据的改组。
为跨多个函数调用的可重现输出传递一个 int。
见:term:词汇表<random_state>
。
shuffle: 布尔,默认=真
拆分前是否对数据进行混洗。如果shuffle=False
那么分层必须是None。
stratify: 类似数组,默认=None
如果不是 None,则以分层方式拆分数据,将其用作
类标签。
3、交叉验证
交叉验证在sklearn中的模块为sklearn.model_selection
Image('Snipaste_2020-01-05_16-37-56.png')
示例:
from sklearn.model_selection import cross_val_score
lr = LogisticRegression(C=100)
scores = cross_val_score(lr, X_train, y_train, cv=10)#lr为之前已经训练好的模型&#x