求 c o s t − f u n c t i o n cost -function cost−function:
二元分类
将每一个数据看作一个点。
设正确分类的概率为p(x).
实际得到的某点被分为1的概率为p(x|1),
则
-
若该点为1,则 p ( x ) = p ( x ∣ 1 ) , p(x)=p(x| 1), p(x)=p(x∣1),
-
若该点为-1,则 p ( x ) = p ( x ∣ − 1 ) = 1 − p ( x ∣ 1 ) p(x)=p(x| -1)=1-p(x| 1) p(x)=p(x∣−1)=1−p(x∣1)
设F为给定点出现在指定位置且target function分类正确的概率
已知 f
为target function,即f始终为正确分类,f(x)==1
则对于f来说,产生给定分布的点集,且分类正确的概率
F
=
P
(
A
)
f
(
A
)
∗
P
(
B
)
f
(
B
)
⋅
⋅
⋅
=
P
(
A
)
∗
P
(
B
)
⋅
⋅
⋅
F=P(A)f(A)*P(B)f(B) ···=P(A)*P(B)···
F=P(A)f(A)∗P(B)f(B)⋅⋅⋅=P(A)∗P(B)⋅⋅⋅
即只与产生该分布情况的几率有关
再设H为给定点出现在指定位置且我的分类器分类正确的概率
设h为my function,则
-
若该点为1,则 h ( x ) = h ( x ∣ 1 ) , h(x)=h(x| 1), h(x)=h(x∣1),
-
若该点为-1,则 h ( x ) = h ( x ∣ − 1 ) = 1 − h ( x ∣ 1 ) h(x)=h(x| -1)=1-h(x| 1) h(x)=h(x∣−1)=1−h(x∣1)
H
=
P
(
A
)
h
(
A
)
∗
P
(
B
)
h
(
B
)
⋅
⋅
⋅
H=P(A)h(A)*P(B)h(B)···
H=P(A)h(A)∗P(B)h(B)⋅⋅⋅
注意区分h(x)与h(x| 1), h(x| -1)
h(x)为分类正确的概率,h(x| 1), h(x| -1)仅为分类为1或-1的概率。
由于P(A),P(B)无法改变,且对所有分类器都相等,所以可以忽略。
故要使分类正确的概率最大,即H最大,就要使
h
(
A
)
∗
h
(
B
)
⋅
⋅
⋅
h(A)*h(B)···
h(A)∗h(B)⋅⋅⋅最大
由于连乘不好算,所以取
ln
\ln
ln ,变为连加,使连加最大,同样不够好,再加符号,使得最后变为求最小值。
c
o
s
t
=
−
1
N
∑
i
=
1
N
ln
(
h
(
x
i
)
)
−
−
−
−
−
−
①
cost = -\frac{1}{N}\sum_{i=1}^{N}{\ln(h(x_i) )} ------①
cost=−N1i=1∑Nln(h(xi))−−−−−−①
对于
S
i
g
m
o
i
d
Sigmoid
Sigmoid 函数,由于其特性
1
−
θ
(
x
)
=
θ
(
−
x
)
1-\theta(x)=\theta(-x)
1−θ(x)=θ(−x),
我们的function给出了
h
(
x
∣
1
)
h(x| 1)
h(x∣1), 且是经过了
S
i
g
m
o
i
d
Sigmoid
Sigmoid之后的结果相当于
θ
(
w
x
)
\theta(wx)
θ(wx),则
对于应为1的点
h
(
x
)
=
h
(
x
∣
1
)
=
θ
(
w
x
)
h(x)=h(x| 1)=\theta(wx)
h(x)=h(x∣1)=θ(wx),
应为-1的点
x
,
h
(
x
)
=
h
(
x
∣
−
1
)
=
1
−
h
(
x
∣
1
)
x,h(x)=h(x| -1)=1-h(x| 1)
x,h(x)=h(x∣−1)=1−h(x∣1).
h
(
x
)
=
h
(
x
∣
−
1
)
=
1
−
h
(
x
∣
1
)
=
1
−
θ
(
w
x
)
=
θ
(
−
w
x
)
h(x)=h(x| -1)=1-h(x |1)=1-\theta(wx)=\theta(-wx)
h(x)=h(x∣−1)=1−h(x∣1)=1−θ(wx)=θ(−wx)
得到,对于label y=-1的点,
h
(
x
)
=
θ
(
y
∗
w
x
)
h(x)=\theta(y*wx)
h(x)=θ(y∗wx)
发现该式对label y=1的点同样适用。
则最终确定
h
(
x
)
=
θ
(
y
∗
w
x
)
−
−
−
−
−
−
②
h(x)=\theta(y*wx)------②
h(x)=θ(y∗wx)−−−−−−②
将其代入
①
①
①式
得
c
o
s
t
=
−
1
N
∑
i
=
1
N
ln
(
θ
(
y
∗
w
x
)
)
cost = -\frac{1}{N}\sum_{i=1}^{N}{\ln(\theta(y*wx) )}
cost=−N1i=1∑Nln(θ(y∗wx))
多元分类
同样的思想,要使每个点正确的概率
h
(
x
)
h(x)
h(x) 的连乘
∏
\prod
∏ 最大,由于每个点经过的几个不同的分类器分类,产生了多个
h
(
x
∣
y
)
h(x| y)
h(x∣y), 而正确的分类
l
a
b
e
l
y
=
y
n
label y=y_n
labely=yn,所以对于一个点
x
n
x_n
xn ,
h
(
x
n
)
=
h
(
x
n
∣
y
n
)
h(x_n)=h(x_n| y_n)
h(xn)=h(xn∣yn)则要使
∏
n
=
1
N
h
(
x
n
∣
y
n
)
\prod_{n=1}^{N}{h(x_n|y_n)}
∏n=1Nh(xn∣yn)最大, 同样取
ln
\ln
ln, 加负号,求最小值
c
o
s
t
=
−
1
N
∑
n
=
1
N
ln
(
h
(
x
n
∣
y
n
)
)
−
−
−
−
−
−
①
cost = -\frac{1}{N}\sum_{n=1}^{N}{\ln(h(x_n|y_n) )} ------①
cost=−N1n=1∑Nln(h(xn∣yn))−−−−−−①