python+sklearn数据集的划分

最新推荐文章于 2024-07-14 21:21:42 发布

Hello AI！

最新推荐文章于 2024-07-14 21:21:42 发布

阅读量549

点赞数

文章标签：机器学习 python 深度学习人工智能

本文链接：https://blog.csdn.net/weixin_45081640/article/details/118089455

版权

本文所用文件的链接

链接：https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ
提取码：p57s

数据集的划分

在机器学习的训练中，数据集的划分是非常重要的，机器学习在有监督的学习中，要将数据集分成训练集，验证集和测试集，训练集的作用是用来第一步训练的，验证集是在训练过程中展示当前模型的训练效果的，测试集是用来检测最终训练结果的。
对于分类问题训练集和测试集的划分不应该用整个样本空间的特定百分比作为训练数据, 而应该在其每一个类别的样本中抽取特定百分比作为训练数据. 最终提高分类的可信度.

sklearn提供了数据集划分的相关API:

import sklearn.model_selection as ms
# 训练集测试集划分
ms.train_test_split(
    输入集, 输出集, 
	test_size=测试集占比,
	random_state=7
)
返回: train_x, test_x, train_y, test_y

案例：按比例划分数据集

"""
训练集测试集划分
"""
import numpy as np
import sklearn.naive_bayes as nb
import matplotlib.pyplot as mp
import sklearn.model_selection as ms

data = np.loadtxt('../ml_data/multiple1.txt', 
	unpack=False, delimiter=',')
print(data.shape, data.dtype)
# 获取输入与输出
x = np.array(data[:, :-1])
y = np.array(data[:, -1])

# 绘制这些点, 点的颜色即是点的类别
mp.figure('Naive Bayes', facecolor='lightgray')
mp.title('Naive Bayes', fontsize=16)
mp.xlabel('X', fontsize=14)
mp.ylabel('Y', fontsize=14)
mp.tick_params(labelsize=10)

# 训练集测试集划分
train_x, test_x, train_y, test_y = \
	ms.train_test_split(
	x, y, test_size=0.25, random_state=7)

# 通过训练样本,训练朴素贝叶斯分类模型
model = nb.GaussianNB()
model.fit(train_x, train_y)
# 对测试样本进行预测, 输出预测精确度
pred_test_y = model.predict(test_x)
# 精确度 = 预测正确的个数/总个数
print((test_y==pred_test_y).sum()/test_y.size)


# 绘制分类边界线
l, r = x[:, 0].min()-1, x[:, 0].max()+1
b, t = x[:, 1].min()-1, x[:, 1].max()+1
n = 500
grid_x, grid_y = np.meshgrid(
	np.linspace(l, r, n),
	np.linspace(b, t, n))
mesh_x = np.column_stack(
	(grid_x.ravel(), grid_y.ravel()))
pred_mesh_y = model.predict(mesh_x)
grid_z = pred_mesh_y.reshape(grid_x.shape)
mp.pcolormesh(grid_x,grid_y,grid_z,cmap='gray')

mp.scatter(test_x[:,0], test_x[:,1], s=60, 
	c=test_y, cmap='jet', label='Train Points')
mp.legend()
mp.show()

(400, 3) float64
CV Accuracy: [1.         1.         1.         1.         0.98305085]
0.99

在这里插入图片描述

Hello AI！

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python+sklearn数据集的划分

本文所用文件的链接链接：https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码：p57s数据集的划分在机器学习的训练中，数据集的划分是非常重要的，机器学习在有监督的学习中，要将数据集分成训练集，验证集和测试集，训练集的作用是用来第一步训练的，验证集是在训练过程中展示当前模型的训练效果的，测试集是用来检测最终训练结果的。对于分类问题训练集和测试集的划分不应该用整个样本空间的特定百分比作为训练数据, 而应该在其每一个类别的样本中抽取特定百分比作为训
复制链接

扫一扫