在机器学习中,有一类参数是用来定义模型结构或优化策略的,这类参数叫作超参数
对于KNN模型超参数K的选择过程:
首先将数据集划分为训练集和测试集
进一步划分出验证集
训练集:用于建立模型,训练模型的拟合能力
测试集:用来检验最终选择最优的模型的性能
验证集:用来确定网络结构或者控制模型复杂程度的参数,即用于参数的优选
1、首先将数据集划分为训练集和测试集
留出法:直接将数据集划分为两个互斥的集合,其中一个作为训练集,另一个作为测试集
train_test_split()函数的参数说明
train_test_split(X, y, random_state = , test_size = )
1)X:表示特征集
2)y:表示对应的类别
3)random_state:随机种子
如果是数字,则其他条件不变时,每次分类的情况都相同
如果不填,每次分类的结果都不同
4)train_size:表示训练集占比,默认为0.25
5)test_size:表示测试集占比,默认为0.75
详细说明:https://www.cnblogs.com/Yanjy-OnlyOne/p/11288098.html
示例:
import numpy as np
from sklearn.model_selection import train_test_split
X = np.array([[1, 1], [2, 2], [3, 3], [4, 4]])
y = np