1、k-means:工作原理
k-means一种基于形心的技术,k-means算法把簇的形心(质心)定义为簇内点的均值。它的处理流程如下。首先在D中随机地选择k个对象,每个对象代表一个簇的初始均值或中心。对剩下的每隔对象,根据其余各个簇中心的欧式距离,将它分配到最相似的簇。然后,k-means 算法迭代地改善簇内变差。对于每隔簇,它使用上次迭代分配到该簇的对象。计算新的均值,然后,使用更新后的均值作为新的簇中心,重新分配所有的对象。迭代继续,知道分配稳定,即本轮形成的簇与前一轮形成的簇相同。k-means过程如下:
方法:
- 确定要将数据聚合成几类,参数k
- 从数据当中,随机的选择k个点,称为聚类中心点
- 计算所有其他点,到这三个点的距离。然后 找出离每个数据点最近的中心点。就将该点划分到 这个中心点所代表的的簇当中去。
- 所有点都会被划分到k个簇当中去。
- 重新计算K个簇的质心,作为下一次聚类的中心点
- 重复上面的3-5步的过程,重新进行聚类
- 停止条件,第一个:当重新聚类后,所有样本 点归属类别都没有发生变化的时候。
2、k-means代码实现:
1、计算欧氏距离
def euclDistance(vector1, vector2):
return np.sqrt(sum((vector2 - vector1) ** 2)) 2、初始化质心def initCentroids(data, k):
numSamples, dim = data.shape
# k个质心,列数跟样本的列数一样
centroids = np.zeros((k, dim))
# 随机选出k个质心
for i in range(k):
# 随机选取一个样本的索引
index = int(np.random.uniform(0, numSamples))
# 作为初始化的质心
centroids[i, :] = data[index, :]
return centroids3、算法实现过程
#传入数据集和k值 def kmeans(data, k):
# 计算样本个数
numSamples = data.shape[0]
# 样本的属性,第一列保存该样本属于哪个簇,第二列保存该样本跟它所属簇的误差
clusterData = np.array(np.zeros((numSamples, 2)))
# 决定质心是否要改变的质量
clusterChanged = True
# 初始化质心
centroids = initCentroids(data, k)
while clusterChanged:
clusterChanged = False
# 循环每一个样本
for i in range(numSamples):
# 最小距离
minDist = 100000.0
# 定义样本所属的簇
minIndex = 0
# 循环计算每一个质心与该样本的距离
for j in range(k):
# 循环每一个质心和样本,计算距离
distance = euclDistance(centroids[j, :], data[i, :])
# 如果计算的距离小于最小距离,则更新最小距离
if distance < minDist:
minDist = distance
# 更新最小距离
clusterData[i, 1] = minDist
# 更新样本所属的簇
minIndex = j
# 如果样本的所属的簇发