李宏毅机器学习之Classification

1.实际应用

在这里插入图片描述
关于分类的一些应用

2.How to do Classification

在这里插入图片描述
首先,要收集data。
在这里插入图片描述
在这里插入图片描述
1.假设现在的model是 y = b + w 1 x 1 + w 2 x 2 y=b+w1x1+w2x2 y=b+w1x1+w2x2,如果用Regression来想,我们希望蓝色的接近1,红色的接近-1,用绿色的线分开。
但如果出现右图的情况,蓝色的点有的接近1,有的>>1,这是用Regression就出问题,会得到紫色的线,而不会得到绿色的线。因为要使>>1的蓝点压小,所以绿色的线一定向右侧倾斜。

所以,用Regression,Penalize to the examples that are"too correct",即去惩罚太正确的点,也就是>>1的蓝点,容易受噪声/边缘点的影响。

2.并且,如果Class1,2,3之间没有关系,当作Regression来处理,不会有好的结果。

3.Ideal Alternatives(理想模型)

在这里插入图片描述

f ( x n ) ≠ y n f(x_n)\neq y_n f(xn)=yn δ = 1 \delta=1 δ=1
f ( x n ) = y n f(x_n)= y_n f(xn)=yn δ = 0 \delta=0 δ=0
损失函数的意思即统计错误的次数
L(f)越小代表在Training data上的错误次数越小。

4.原理准备

Two Boxes

在这里插入图片描述
🔽
在这里插入图片描述
将盒子Box1,Box2换成Class1,Class2
给一个x,即要分类的对象,我们需要 P ( c 1 ) 、 P ( c 2 ) 、 P ( x ∣ c 1 ) 、 P ( x ∣ c 2 ) P(c1)、P(c2)、P(x|c1)、P(x|c2) P(c1)P(c2)P(xc1)P(xc2)四个值
在这里插入图片描述
以水系和一般系的宝可梦为例
在这里插入图片描述
在这里插入图片描述

图中每个点代表一种宝可梦的属性。

Gaussian distribution(高斯分布)

一般的,我们假设x的分布为高斯分布(最为常见的概率分布模型),也称为正态分布,为什么会往往选择高斯分布呢,概率论中的中心极限定理告诉我们答案。
在这里插入图片描述
这是高维的分布,其中均值为 μ \mu μ,协方差为 ∑ \sum
在这里插入图片描述
在这里插入图片描述
只要知道 μ \mu μ ∑ \sum ,就可以算Gaussian的Likelihood,即图中79个点的机率。
因为79个点是独立的,所以Likelihood的式子就等于79点依次相乘。
在这里插入图片描述
关于
在这里插入图片描述
穷举所有的 μ \mu μ ∑ \sum ,看哪一个能让上面Likelihood的式子最大。

μ ∗ \mu^* μ ∑ ∗ \sum^* 的求法就按照上图的公式即可。

5.开始分类

在这里插入图片描述
开始二分类,根据高斯分布就可以计算 p ( x ∣ C 1 ) p(x|C1) p(xC1) p ( x ∣ C 2 ) p(x|C2) p(xC2)
在这里插入图片描述
在这里插入图片描述
但是这样的正确率并不高,即使加到7维也没有太多的改善。

6.Modifying Model(改善模型)

在这里插入图片描述
我们可以看到,两组数据的 μ \mu μ ∑ \sum 分别不同,参数过多导致很容易overfitting,所以要减少参数。
让Class1和Class2共享一个 ∑ \sum

在这里插入图片描述
调整之后,唯一不同的就是 ∑ \sum 的计算

在这里插入图片描述
最后的正确率可以达到73%,分界面变为线性。
但至于为什么会发生这种变化,因为是在高维空间发生的事情,所以很难人为地去做出解释。

7.总结三个步骤

• Function Set (Model)

在这里插入图片描述

• Goodness of a function

The mean 𝜇 and covariance Σ that maximizing the likelihood (the probability of generating data)

• Find the best function

8.最后高能!!!(Sigmoid function)

在这里插入图片描述
如上图,对式子进行变换,会得出Sigmoid function。

然后,又到了熟悉的Warning of Math😂
在这里插入图片描述
经过不断地变、变、变 🔽
在这里插入图片描述
可以观察到,第一项有系数 x x x,后面几项里其实都是参数。
我们就可以理解为x的系数其实就是 s i g m o i d sigmoid sigmoid中的参数 w T w^T wT(这是个matrix),后面那些项可以看成是参数 b b b
那么在Generative model中我们的目标是寻找最佳的 N 1 , N 2 , μ 1 , μ 2 , ∑ N1,N2,\mu1,\mu2,\sum N1,N2,μ1,μ2,使 P ( C 1 ∣ x ) P(C1|x) P(C1x) maximise。

但我们能够化简呈线性的,那为什么还要舍近求远的求5个参数去将目标最优化呢?只有“两个参数”的方法我们叫做Discraminative model。

实际上,在大多数情况下,这两种方法各有利弊,但是实际上Discraminative model泛化能力比Generative model还是强不少的。什么时候Generative model更好呢?

• training data比较少的时候,需要靠几率模型脑补没有发生或的事情。
• training data中有noise。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值