为了更好构建关于机器学习的整体架构,多快好省的学好机器学习,计划提纲挈领的总结一遍,从算法的执行流程、伪代码流程构建、python代码实现、调用sklearn机器学习库相关函数实现功能等方面论述,以便以后自己复习和备查,下面先从k-means算法开始。
一、K-means算法流程
首先,随机确定k个初始点作为质心,然后为数据集中的每一个点找距其最近的质心,将其分配给该质心对应的簇,最后,更新每个簇的质心,新的质心为所有点的平均值。
二、伪代码流程构建
创建k个点为起始质心
当任意一个点的簇分配结果发生改变时
对数据集中的每一个数据点
每一个质心
计算质心与数据点之间的距离
将数据点分配到距离其最近的簇
对每一个簇,计算簇中所有点的均值并将其均值作为质心
三、python代码实现
import numpy as np
from sklearn import datasets
def prepare_data(data):
region = np.zeros((2, data.shape[1]))
region[0, :] = np.min(data, axis=0)
region[1, :] = np.max(data, axis=0)
return region
def initial_centers(region, num_centers):
center_raw = np.random.rand(num_centers, region.shape[1])
interval = region[1, :] - region[0, :]
inter_mat = np.repeat(np.expand_dims(interval, axis=0), num_centers, axis=0)
min