【划分数据集】stratifiedShuffleSplit分层抽样

LansinBlog

已于 2024-03-21 22:38:42 修改

阅读量214

点赞数 3

分类专栏：实验设置文章标签： python

于 2024-03-21 22:38:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45674669/article/details/136923029

版权

实验设置专栏收录该内容

4 篇文章 0 订阅

订阅专栏

import pandas as pd
from sklearn.model_selection import StratifiedShuffleSplit

# 分出10%作为独立测试集
ss = StratifiedShuffleSplit(n_splits = 1,test_size = 0.1,random_state = 42)

data = pd.read_csv("F:\\PaperCode\\Mypaper_python_code\\data\\label\\delete_WSInopatch_sample.tsv", sep = "\t")
X = data.iloc[:, 0]
y = data.iloc[:, 2]

# print(type(X))
# <class 'pandas.core.series.Series'>


for train_index, test_index in ss.split(X, y):
    # print("TRAIN_INDEX:", train_index, "TEST_INDEX:", test_index)  # 获得索引值
    X_train, X_test = X[train_index], X[test_index]  # 训练集对应的值
    y_train, y_test = y[train_index], y[test_index]  


# print(type(X_train))
# <class 'pandas.core.series.Series'>

由于我的实验是多分类，因此在划分独立测试集时，需要按照不同分类下数据总数提取10%。

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【划分数据集】stratifiedShuffleSplit分层抽样

由于我的实验是多分类，因此在划分独立测试集时，需要按照不同分类下数据总数提取10%。
复制链接

扫一扫

专栏目录

博客等级

码龄5年

83
原创

476
点赞

284
收藏

336
粉丝

关注

私信

热门文章

分类专栏

最新评论

【Python-Numpy】降低Numpy版本
Ivy@HPC: 这段代码示例清晰，指导如何用pip精准控制NumPy版本，对于需要特定版本开发环境的项目很有帮助，值得收藏。
【Python-Numpy】降低Numpy版本
阿J~: 很详细呀感谢老哥分享！
【恒源智享云】在云服务器上批量下载WSIs-GDC Transfer Tool(client)
LansinBlog: 我不知道你说的是多个WSI不完整，还是单个WSI。如果是多个，比如你要下12个，但是只下载成功了6个，那就直接重复那个指令就可，不用作修改。如果是单个WSI不完整，这个情况我没遇到过。
【恒源智享云】在云服务器上批量下载WSIs-GDC Transfer Tool(client)
WenBoo-: 如果下载中遇到该报错导致下载的该WSI下载的不完整，执行该命令会补充下载完整吗？
【恒源智享云】在云服务器上批量下载WSIs-GDC Transfer Tool(client)
LansinBlog: 遇到过，我一般是服务器内存不够了或者网络不好，所以WSI下载不了。做法就是：扩大内存或者换个网络，重新执行命令即可。因为这个命令会先检查当前WSI是否已在下载的路径中，如果已经下载了，就不重复下载了。

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。