机器学习工具之交叉验证数据集自动划分
1. 使用方式:
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test=train_test_split
(train_data,train_lable,test_size=0.3,random_state=o,stratify=train_lable)
注意:stratify一般用于非平衡数据按train_lable的比例分层,多用于分类
2 . 参数介绍
train_data:样本特征集
train_target:样本的标签集
test_size:样本占比,测试集占数据集的比重,如果是整数的话就是样本的数量
random_state:是随机数的种子。在同一份数据集上,相同的种子产生相同的结果,不同的种子产生不同的划分结果
X_train,y_train:构成了训练集
X_test,y_test:构成了测试集