cross-entropy error

c o s t − f u n c t i o n cost -function costfunction

二元分类

将每一个数据看作一个点。
设正确分类的概率为p(x).
实际得到的某点被分为1的概率为p(x|1),

  • 若该点为1,则 p ( x ) = p ( x ∣ 1 ) , p(x)=p(x| 1), p(x)=p(x1),

  • 若该点为-1,则 p ( x ) = p ( x ∣ − 1 ) = 1 − p ( x ∣ 1 ) p(x)=p(x| -1)=1-p(x| 1) p(x)=p(x1)=1p(x1)

设F为给定点出现在指定位置且target function分类正确的概率
已知 f 为target function,即f始终为正确分类,f(x)==1
则对于f来说,产生给定分布的点集,且分类正确的概率
F = P ( A ) f ( A ) ∗ P ( B ) f ( B ) ⋅ ⋅ ⋅ = P ( A ) ∗ P ( B ) ⋅ ⋅ ⋅ F=P(A)f(A)*P(B)f(B) ···=P(A)*P(B)··· F=P(A)f(A)P(B)f(B)=P(A)P(B)
即只与产生该分布情况的几率有关

再设H为给定点出现在指定位置且我的分类器分类正确的概率
设h为my function,则

  • 若该点为1,则 h ( x ) = h ( x ∣ 1 ) , h(x)=h(x| 1), h(x)=h(x1),

  • 若该点为-1,则 h ( x ) = h ( x ∣ − 1 ) = 1 − h ( x ∣ 1 ) h(x)=h(x| -1)=1-h(x| 1) h(x)=h(x1)=1h(x1)

H = P ( A ) h ( A ) ∗ P ( B ) h ( B ) ⋅ ⋅ ⋅ H=P(A)h(A)*P(B)h(B)··· H=P(A)h(A)P(B)h(B)
注意区分h(x)与h(x| 1), h(x| -1)
h(x)为分类正确的概率,h(x| 1), h(x| -1)仅为分类为1或-1的概率。
由于P(A),P(B)无法改变,且对所有分类器都相等,所以可以忽略。
故要使分类正确的概率最大,即H最大,就要使 h ( A ) ∗ h ( B ) ⋅ ⋅ ⋅ h(A)*h(B)··· h(A)h(B)最大
由于连乘不好算,所以取 ln ⁡ \ln ln ,变为连加,使连加最大,同样不够好,再加符号,使得最后变为求最小值。
c o s t = − 1 N ∑ i = 1 N ln ⁡ ( h ( x i ) ) − − − − − − ① cost = -\frac{1}{N}\sum_{i=1}^{N}{\ln(h(x_i) )} ------① cost=N1i=1Nln(h(xi))

对于 S i g m o i d Sigmoid Sigmoid 函数,由于其特性 1 − θ ( x ) = θ ( − x ) 1-\theta(x)=\theta(-x) 1θ(x)=θ(x),
我们的function给出了 h ( x ∣ 1 ) h(x| 1) h(x1), 且是经过了 S i g m o i d Sigmoid Sigmoid之后的结果相当于 θ ( w x ) \theta(wx) θ(wx),则
对于应为1的点 h ( x ) = h ( x ∣ 1 ) = θ ( w x ) h(x)=h(x| 1)=\theta(wx) h(x)=h(x1)=θ(wx),
应为-1的点 x , h ( x ) = h ( x ∣ − 1 ) = 1 − h ( x ∣ 1 ) x,h(x)=h(x| -1)=1-h(x| 1) x,h(x)=h(x1)=1h(x1).

h ( x ) = h ( x ∣ − 1 ) = 1 − h ( x ∣ 1 ) = 1 − θ ( w x ) = θ ( − w x ) h(x)=h(x| -1)=1-h(x |1)=1-\theta(wx)=\theta(-wx) h(x)=h(x1)=1h(x1)=1θ(wx)=θ(wx)
得到,对于label y=-1的点, h ( x ) = θ ( y ∗ w x ) h(x)=\theta(y*wx) h(x)=θ(ywx)
发现该式对label y=1的点同样适用。
则最终确定 h ( x ) = θ ( y ∗ w x ) − − − − − − ② h(x)=\theta(y*wx)------② h(x)=θ(ywx)
将其代入 ① ①
c o s t = − 1 N ∑ i = 1 N ln ⁡ ( θ ( y ∗ w x ) ) cost = -\frac{1}{N}\sum_{i=1}^{N}{\ln(\theta(y*wx) )} cost=N1i=1Nln(θ(ywx))

多元分类

同样的思想,要使每个点正确的概率 h ( x ) h(x) h(x) 的连乘 ∏ \prod 最大,由于每个点经过的几个不同的分类器分类,产生了多个 h ( x ∣ y ) h(x| y) h(xy), 而正确的分类 l a b e l y = y n label y=y_n labely=yn,所以对于一个点 x n x_n xn , h ( x n ) = h ( x n ∣ y n ) h(x_n)=h(x_n| y_n) h(xn)=h(xnyn)则要使 ∏ n = 1 N h ( x n ∣ y n ) \prod_{n=1}^{N}{h(x_n|y_n)} n=1Nh(xnyn)最大, 同样取 ln ⁡ \ln ln, 加负号,求最小值
c o s t = − 1 N ∑ n = 1 N ln ⁡ ( h ( x n ∣ y n ) ) − − − − − − ① cost = -\frac{1}{N}\sum_{n=1}^{N}{\ln(h(x_n|y_n) )} ------① cost=N1n=1Nln(h(xnyn))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值