李宏毅机器学习之Classification

最新推荐文章于 2022-09-09 21:36:55 发布

最新推荐文章于 2022-09-09 21:36:55 发布

阅读量287

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/weixin_45884316/article/details/107333767

版权

机器学习专栏收录该内容

36 篇文章 24 订阅

订阅专栏

1.实际应用

在这里插入图片描述
关于分类的一些应用

2.How to do Classification

在这里插入图片描述
首先，要收集data。

1.假设现在的model是 $y = b + w 1 x 1 + w 2 x 2$ ，如果用Regression来想，我们希望蓝色的接近1，红色的接近-1，用绿色的线分开。
但如果出现右图的情况，蓝色的点有的接近1，有的>>1，这是用Regression就出问题，会得到紫色的线，而不会得到绿色的线。因为要使>>1的蓝点压小，所以绿色的线一定向右侧倾斜。

所以，用Regression，Penalize to the examples that are"too correct"，即去惩罚太正确的点，也就是>>1的蓝点，容易受噪声/边缘点的影响。

2.并且，如果Class1,2,3之间没有关系，当作Regression来处理，不会有好的结果。

3.Ideal Alternatives(理想模型)

在这里插入图片描述

$f(x_n)\neq y_n$ ， $\delta=1$
$f(x_n)= y_n$ ， $\delta=0$
损失函数的意思即统计错误的次数
L(f)越小代表在Training data上的错误次数越小。

4.原理准备

Two Boxes

在这里插入图片描述
🔽

将盒子Box1,Box2换成Class1,Class2
给一个x，即要分类的对象，我们需要 $P (c 1) 、 P (c 2) 、 P (x ∣ c 1) 、 P (x ∣ c 2)$ 四个值

以水系和一般系的宝可梦为例

图中每个点代表一种宝可梦的属性。

Gaussian distribution（高斯分布）

一般的，我们假设x的分布为高斯分布（最为常见的概率分布模型），也称为正态分布，为什么会往往选择高斯分布呢，概率论中的中心极限定理告诉我们答案。
在这里插入图片描述
这是高维的分布，其中均值为 $\mu$ ,协方差为 $\sum$

只要知道 $\mu$ ， $\sum$ ，就可以算Gaussian的Likelihood，即图中79个点的机率。
因为79个点是独立的，所以Likelihood的式子就等于79点依次相乘。

关于

穷举所有的 $\mu$ ， $\sum$ ，看哪一个能让上面Likelihood的式子最大。

$\mu^*$ ， $\sum^*$ 的求法就按照上图的公式即可。

5.开始分类

在这里插入图片描述
开始二分类，根据高斯分布就可以计算 $p (x ∣ C 1)$ ， $p (x ∣ C 2)$

但是这样的正确率并不高，即使加到7维也没有太多的改善。

6.Modifying Model（改善模型）

在这里插入图片描述
我们可以看到，两组数据的 $\mu$ ， $\sum$ 分别不同，参数过多导致很容易overfitting，所以要减少参数。
让Class1和Class2共享一个 $\sum$ 。

在这里插入图片描述
调整之后，唯一不同的就是 $\sum$ 的计算

在这里插入图片描述
最后的正确率可以达到73%，分界面变为线性。
但至于为什么会发生这种变化，因为是在高维空间发生的事情，所以很难人为地去做出解释。

7.总结三个步骤

• Function Set (Model)

在这里插入图片描述

• Goodness of a function

The mean 𝜇 and covariance Σ that maximizing the likelihood (the probability of generating data)

• Find the best function

8.最后高能！！！（Sigmoid function）

在这里插入图片描述
如上图，对式子进行变换，会得出Sigmoid function。

然后，又到了熟悉的Warning of Math😂
在这里插入图片描述
经过不断地变、变、变 🔽

可以观察到，第一项有系数 $x$ ，后面几项里其实都是参数。
我们就可以理解为x的系数其实就是 $s i g m o i d$ 中的参数 $w^T$ （这是个matrix），后面那些项可以看成是参数 $b$ 。
那么在Generative model中我们的目标是寻找最佳的 $N1,N2,\mu1,\mu2,\sum$ 使 $P (C 1 ∣ x)$ maximise。

但我们能够化简呈线性的，那为什么还要舍近求远的求5个参数去将目标最优化呢？只有“两个参数”的方法我们叫做Discraminative model。

实际上，在大多数情况下，这两种方法各有利弊，但是实际上Discraminative model泛化能力比Generative model还是强不少的。什么时候Generative model更好呢？

• training data比较少的时候，需要靠几率模型脑补没有发生或的事情。
• training data中有noise。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李宏毅机器学习之Classification

实际应用关于分类的一些应用How to do Classification首先，要收集data。1.假设现在的model是y=b+w1x1+w2x2y=b+w1x1+w2x2y=b+w1x1+w2x2，如果用Regression来想，我们希望蓝色的接近1，红色的接近-1，用绿色的线分开。但如果出现右图的情况，蓝色的点有的接近1，有的>>1，这是用Regression就出问题，会得到紫色的线，而不会得到绿色的线。因为要使>>1的蓝点压小，所以绿色的线一定向右侧倾斜。所
复制链接

扫一扫