距离判别法
距离判别法首先根据已知分类的数据,分别计算出各类的重心。再根据新个体到每类的距离(即新个体与各类重心的距离,可采用欧氏距离或者马氏距离等等),根据最短的距离确定分类情况。
问题描述:
欧氏距离
Note: 第一个等式是矩阵的写法。
马氏距离
Note: 矩阵的写法。
关于协方差矩阵
协方差矩阵:对n个维度,任意两个维度都计算一个协方差,组成矩阵
具体见协方差矩阵
Fisher判别分析
应用步骤:
- 把来自2类的训练样本集划分为2个子集 X 1 , X 2 , i = 1 , 2 X_1,X_2, i=1,2 X1,X2,i=1,2
- 计算各类的均值向量 m 1 , m 2 m_1,m_2 m1,m2(投影前)
- 得到投影后均值向量 μ 1 , μ 2 \mu_1,\mu_2 μ1,μ2
- 计算各类的类内离散度矩阵 S i S_i Si(投影前)
- 计算投影之后的离散度矩阵 σ i 2 \sigma_i^2 σi2
- 计算类内总离散矩阵 S t S_t St
- 求出 w o p = S t − 1 ( m 1 − m 2 ) w_{op}=S_t^{-1}(m_1-m_2) wop=St−1(m1−m2)
- y = w o p T x y=w_{op}^Tx y=wopTx
- 确定阈值 w 0 w_0 w0比较 y y y值与阈值 w 0 w_0 w0 的大小,得出其分类。
核心思想
Fisher判别的基本思想:
希望投影后的一维数据满足:
- 两类之间的距离尽可能远;
- 每一类自身尽可能紧凑。
具体步骤解释
Fisher准则函数:
我们的目标是求出
y
=
w
T
x
y=w^Tx
y=wTx 这条直线。因此求
w
w
w
所以我们投影降维,将均差、离散度写成有关
w
w
w的函数。
我们希望类间距大,类内小;所以,目标求
w
w
w为多少时,式子达到最大值。
投影降维
给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、不同类样例的投影点尽可能远离。在对新样本进行分类时,将其投影到同样的这条直线上,再根据新样本投影点的位置来确定它的类别
y = w T x y=w^Tx y=wTx 就是要投影到的直线
组间偏差
(
μ
1
−
μ
2
)
2
=
(
w
T
m
2
−
w
T
m
1
)
2
(\mu_1-\mu_2)^2=(w^Tm_2-w^Tm_1)^2
(μ1−μ2)2=(wTm2−wTm1)2
将原始空间的均值m1,m2投影后(
μ
1
=
w
T
m
1
\mu_1=w^Tm_1
μ1=wTm1)得到在直线上的
μ
1
\mu_1
μ1和
μ
2
\mu_2
μ2
组内偏差
按照方差分析里的思想,应该把各组内的偏差相加,再把各组的偏差总和相加。
离散度矩阵定义为:
各组内的偏差相加: 样本与均值差距
因此,
J
F
(
w
)
J_F(w)
JF(w)下面的式子:
σ
1
2
+
σ
2
2
=
w
T
S
1
w
+
w
T
S
2
w
=
w
T
(
S
1
+
S
2
)
w
\sigma_1^2+\sigma_2^2=w^TS_1w+w^TS_2w=w^T(S_1+S_2)w
σ12+σ22=wTS1w+wTS2w=wT(S1+S2)w
各组的偏差总和相加
求出最优解
最大化上述式子得到当前
w
o
p
w_{op}
wop