k-means 聚类
聚类是指按某种特征将数据分为若干类. 由于选取的特征不同, 聚类会有差别.
k-means 聚类是按 中心点距离分类的. 不恰当地类比为井田, 一井: 九块地,中间是国家的, 另外 8块地是农民的. 一井就是类.
k-means 聚类是 事先规定了 分为 k-类.
- 从数据 { d 1 , ⋯ d n } \{d_1,\cdots d_n \} {d1,⋯dn} 中任意挑选 k 个元素作为中心 a 1 , ⋯ a k a_1,\cdots a_k a1,⋯ak.
- l = a r g i m i n { ∣ d j − a i ∣ } l= arg_{i} \, min\{ |d_j-a_i|\} l=argimin{∣dj−ai∣}, d j d_j dj 归为 a l a_l al 所在类 c l c_l cl.
- 计算 各类的 c l c_l cl 的中心, 任记作 a l : = 1 ∣ c l ∣ ∑ d j ∈ c l d j a_l:= \frac{1}{|c_l|}\sum_{d_j \in c_l} d_j al:=∣cl∣1∑dj∈cldj.
- 重复 2,3 直到数据不能更新.
聚类结果和第一步的挑选关系很大,
考虑 实轴上的点
1
,
2
,
3.4
1,2,3.4
1,2,3.4, 分为两类.
初选
a
1
=
1
a_1=1
a1=1,
a
2
=
2
a_2=2
a2=2, 分类
c
1
=
{
1
}
c_1=\{ 1\}
c1={1},
c
2
=
{
2
,
3.4
}
c_2=\{ 2, 3.4 \}
c2={2,3.4}, 使用 步骤 3,分类不变.
初选
a
1
=
1
a_1=1
a1=1,
a
2
=
3.4
a_2=3.4
a2=3.4, 分类
c
1
=
{
1
,
2
}
c_1=\{ 1,2\}
c1={1,2},
c
2
=
{
3.4
}
c_2=\{ 3.4 \}
c2={3.4}, 使用 步骤 3,分类不变.