从数据集txt中随机选择一部分作为测试集

# -*- coding: utf-8 -*-
"""
Created on Thu Jul  8 15:23:08 2021

@author: haijiao
用于从数据集txt中随机选择一部分作为测试集
filt_path填train.txt文件的目录
path_merges填输出文件目录
out_file_path最后为合并后txt的名字
k可以改变测试集所占总数据集的比例
"""

import os
import random

#路径设置
file_path = "./"
path_merges = "./"
in_file_path = os.path.join(file_path, 'train.txt')
out_file_path = os.path.join(path_merges, 'val.txt')

#判断路径
if not os.path.exists(path_merges):
    os.mkdir(path_merges)
if os.path.exists(out_file_path):
    os.remove(out_file_path)

#读取train.txt文件到列表
with open(in_file_path, 'r') as f:
    train_list = f.readlines()

#创建val元素的列表,随机取train.txt文件列表1/30的元素
k = len(train_list)//30
val_list = random.sample(train_list, k)
val_list.sort()

#写入val.txt文件
with open(out_file_path, 'w') as f1:
    for val in val_list:
        f1.write(val)


#print(train_list)
print(f"训练集总数量:{len(train_list)}")
print(f"测试集总数量:{k}")
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值