超参数和模型参数

本文详细探讨了kNN算法中关键超参数k的选取过程,通过实例展示了如何通过交叉验证找到最佳k值。同时,介绍了权重选项(uniform和distance)对算法性能的影响,并聚焦于p参数在明可夫斯基距离上的调整。
摘要由CSDN通过智能技术生成

定义

超参数:在算法运行前需要决定的参数
模型参数:算法过程中学习的参数
kNN算法中的k值即为超参数,本文将重点介绍他。

确定kNN算法中的k

首先我们将k值定为3,来测试一下他的准确度:

import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier

digits = datasets.load_digits()
X = digits.data
y = digits.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 666)

knn_clf = KNeighborsClassifier(n_neighbors = 3)
knn_clf.fit(X_train, y_train)
knn_clf.score(X_test, y_test)

结果为:0.9916666666666667。
注:其中的random_state为随机数种子,当我们固定random_state后,每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。

确定kNN算法中的k:

best_score = 0.0
besk_k = -1
for k in range(1, 11):
    knn_clf = KNeighborsClassifier(n_neighbors = k)
    knn_clf.fit(X_train, y_train)
    score = knn_clf.score(X_test, y_test)
    if score > best_score:
        best_k = k
        best_score = score
        
print("best_k = ", best_k)
print("best_score = ", best_score)

只需要列出一个k的范围然后依次循环即可。如果我们确定的值刚好为10的话,我们有必要继续向上搜索。之所以如此,是因为我们如果得出的值是边界值,那么我们就不能确保这个值是最好的。

kNN中的另一个超参数weights

有时候我们需要判断距离的权重,如下图:
在这里插入图片描述
权重为距离的倒数,然后可以得出结果为红色胜利。
其中有两种结果,一种为uniform,一种为distance。uniform的意思即不考虑
距离的权重,distance即考虑。以下代码为判断是否考虑距离:

best_method = ""
best_score = 0.0
besk_k = -1
for method in ["uniform", "distance"]:
    for k in range(1, 11):
        knn_clf = KNeighborsClassifier(n_neighbors = k, weights = method)
        knn_clf.fit(X_train, y_train)
        score = knn_clf.score(X_test, y_test)
        if score > best_score:
            best_k = k
            best_score = score
            best_method = method

print("best_method_ = ", best_method)
print("best_k = ", best_k)
print("best_score = ", best_score)

结果如下:
best_method_ = uniform
best_k = 3
best_score = 0.9916666666666667
因此不需要考虑距离。

kNN中的另一个超参数p

明可夫斯基距离:
在这里插入图片描述
另一个超参数p即为明可夫斯基距离,以下代码则为确定p的值:

best_p = -1
best_score = 0.0
besk_k = -1

for k in range(1, 11):
    for p in range(1, 6):
        knn_clf = KNeighborsClassifier(n_neighbors = k, weights = "distance", p = p)
        knn_clf.fit(X_train, y_train)
        score = knn_clf.score(X_test, y_test)
        if score > best_score:
            best_k = k
            best_score = score
            best_p = p

print("best_p = ", best_p)
print("best_k = ", best_k)
print("best_score = ", best_score)
  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

每天一道题

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值