1. python机器学习中常用 train_test_split()函数划分训练集和测试集,其用法语法如下:
X_train, X_test, y_train, y_test = train_test_split(train_data, train_target, test_size, random_state, shuffle)
X_train | 划分的训练集数据 |
X_test | 划分的测试集数据 |
y_train | 划分的训练集标签 |
y_test | 划分的测试集标签 |
参数 描述
train_data 还未划分的数据集
train_target 还未划分的标签
test_size 分割比例,默认为0.25,即测试集占完整数据集的比例
random_state 随机数种子,应用于分割前对数据的洗牌。可以是int,RandomState实例或 None,默认值=None。设成定值意味着,对于同一个数据集,只有第一次运行是 随机的,随后多次分割只要rondom_state相同,则划分结果也相同。
shuffle 是否在分割前对完整数据进行洗牌(打乱),默认为True,打乱。