【机器学习-小白向】简单的超参数优化实现，以K-means为例

yumoumou2002

已于 2023-08-30 21:08:56 修改

阅读量222

点赞数

文章标签： python 机器学习 k-means

于 2023-08-30 20:57:23 首次发布

本文链接：https://blog.csdn.net/yumoumou2002/article/details/132590432

版权

1. 什么是超参数

超参数是机器学习算法中需要人为设定的参数，不能直接从训练数据中学习得到；
而模型参数则是模型的参数，可由模型从训练数据中学习得到。

2. 简单的超参数优化方法

手肘法

以K-means聚类算法为例，要选择一个合适的超参数k，使得聚类结果最佳：

确定一个k值的范围，如(1-10)，遍历k值，绘制一个折线图，y轴为性能指标（此例中为数据点离簇心距离之和），x轴为k。
得到如下图像：

可见在k=1-2,2-3时，y有明显变化，而从k=3-4开始则没有明显变化，所以k=3即为手肘，选择3作为超参数k的值最为合适。

代码实现

distances = []  # 所有样本点离其簇中心的距离
for k in range(1, 10):
    centers, cluster = k_means(X, k)  # cluster为聚类结果，有k个list，每个list里是属于该类的所有样本点
    print('聚类中心为：%s' % centers)
    disk = 0
    for ci in range(0, k):
        for point in np.array(cluster[ci]):
            disk += euclidean_distance(centers[ci], point, 4)
    distances.append(disk)
plt.figure(1)
plt.plot(range(1, 10), distances)
plt.ylabel("distances")
plt.xlabel("k")
plt.title("K-means distances-k")
plt.show()

# 计算两个点之间的欧拉距离
def euclidean_distance(X1, X2, feature_num):
    distance = 0.0
    for x in range(feature_num):
        distance += pow((X1[x] - X2[x]), 2)
    return distance