k近邻的思想
对给定的训练数据和输入数据,首先确定输入数据的k个最近邻训练点,然后依据这k个训练点多数所属的类来预测输入数据的类。
k近邻法三要素
距离度量、k值选择、分类决策规则
距离度量
最一般的形式为
L
p
L_p
Lp距离,即两个向量作差的
p
p
p范数,
x
1
=
(
a
1
,
a
2
,
.
.
.
,
a
n
)
,
x
2
=
(
b
1
,
b
2
,
.
.
.
,
b
n
)
x_1 = (a_1,a_2,...,a_n),x_2 = (b_1,b_2,...,b_n)
x1=(a1,a2,...,an),x2=(b1,b2,...,bn)
L
p
=
(
Σ
i
n
∣
x
1
(
i
)
−
x
2
(
i
)
∣
)
1
p
L_p = (\Sigma_i^n |x_1^{(i)}-x_2^{(i)}|)^{\dfrac{1}{p}}
Lp=(Σin∣x1(i)−x2(i)∣)p1
p
=
1
p=1
p=1称为曼哈顿距离
p
=
2
p=2
p=2称为欧式距离
p
=
∞
p=∞
p=∞是各个坐标差值的最大值
L
∞
=
m
a
x
∣
x
1
(
i
)
−
x
2
(
i
)
∣
L_∞ = max| x_1^{(i)}-x_2^{(i)}|
L∞=max∣x1(i)−x2(i)∣
k值选择
k值较小,模型较复杂,容易过拟合
k值较小,模型较简单
在应用中,k一般取值较小,通常采用交叉验证的方法取得最优的k值