sklearn中train_test_split里，参数stratify含义解析

最新推荐文章于 2025-04-15 08:56:38 发布

原创最新推荐文章于 2025-04-15 08:56:38 发布 · 3.4w 阅读

132 ·

CC 4.0 BY-SA版权

文章标签：

#sklearn #train_test_split #stratify

python 同时被 2 个专栏收录

20 篇文章

订阅专栏

机器学习

7 篇文章

订阅专栏

本文详细解析了在使用sklearn库进行数据集划分时，如何利用stratify参数确保训练集、测试集及验证集的数据分类比例一致，通过具体例子说明了其在保持样本类别平衡中的作用。

该文章已生成可运行项目，

直接上代码：

from sklearn.model_selection import train_test_split
# 将'features'和'result'数据切分成训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(features, result, test_size = 0.2, random_state = 0,
                                                    stratify = result)

上方代码中stratify的作用是：保持测试集与整个数据集里result的数据分类比例一致。

举个栗子：
整个数据集有1000行，result列的数据也是1000个，而且分两类：0和1，其中0有300个，1有700个，即数据分类的比例为3：7。

那么现在把整个数据split，因为test_size = 0.2，所以训练集分到800个数据，测试集分到200个数据。

重点来了
那么由于stratify = result，则训练集和测试集中的数据分类比例将与result一致，也是3：7，结果就是在训练集中，有240个0和560个1；测试集中有60个0和140个1。

同理，若将训练集进一步分出一个验证集：

# 将'X_train'和'y_train'进一步切分为训练集和验证集
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=0,
                                                    stratify = y_train)