使用pandas和sklearn将csv/tsv按比例分成训练集和测试集

万里无云能蔽日

已于 2022-04-12 13:09:41 修改

阅读量4.7k

点赞数 2

分类专栏： python sklearn pandas 文章标签： pandas sklearn train_test_split 数据预处理特征工程

于 2022-04-12 13:09:14 首次发布

本文链接：https://blog.csdn.net/weixin_49618140/article/details/124121350

版权

python 同时被 3 个专栏收录

2 篇文章 0 订阅

订阅专栏

sklearn

1 篇文章 0 订阅

订阅专栏

pandas

1 篇文章 0 订阅

订阅专栏

STEP 1 / pandas

import pandas as pd

path = 'xxx'
data = pd.read_csv(path, header=None, names=['label','title','text'])

data :

STEP 2 / sklearn.model_selection.train_test_split

from sklearn.model_selection import train_test_split

x= data.iloc[:,:] # 选取 data 所有行、所有列数据
y = data.iloc[:,0] # 选取 data 所有行、第一列数据

X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.4, random_state=0)

x (左) & y (右) :