台大李宏毅Machine Learning学习笔记（五）——分类

最新推荐文章于 2022-03-02 21:52:41 发布

既往不恋未来不迎

最新推荐文章于 2022-03-02 21:52:41 发布

阅读量198

点赞数

分类专栏：李宏毅机器学习文章标签：机器学习李宏毅分类朴素贝叶斯概率模型

本文链接：https://blog.csdn.net/weixin_45416911/article/details/97556537

版权

李宏毅同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

机器学习

5 篇文章 0 订阅

订阅专栏

1.分类

分类，顾名思义就是给我们一堆输入，某种规则将它们分为几类，例如利用信用卡信誉积分将顾客分为几档，从而决定是否给与贷款；根据病人的年龄、症状、患病时间来判断病人所患的病也是一种分类等等。现在还是以宝可梦为例，假设现在随着宝可梦越来越多，我们想要知道新抓的宝可梦是属于哪一种属性的。
先来看看假如用前面学过的线性回归的方法将它作为二值分类来解决会出现什么情况。

图1 线性回归失效如图，将训练数据分为两类，于是绿色的为求出的分类线，当数据比较集中，在函数的两侧的时候，分类结果还可以接受，当有的数据分散的时候，因为线性回归要使损失函数最小，结果就会偏移产生错误。而且当需要进行多元分类的时候，这种方法失效。所以，需要重新寻找一个函数模型，输入一个数据

x

，当满足

g (x) > 0

时，输出为一类，否则，输出为另一类，损失函数也重新定义。如下图：

图2 重新寻找函数模型

2.概率模型

贝叶斯公式： $P(A_i|B)=\frac {P(B|A_i)P(A_i)}{\sum\limits_{j=1}^nP(B|A_i)P(A_i)}\ \ \ \ \ \ \ \ \ \ \ \ i=1,2,\cdots,n\tag 1$ 其中， $P(B)=\sum\limits_{j=1}^nP(B|A_i)P(A_i)\tag2$ 即全概率公式； $P (A ∣ B)$ 在事件 $B$ 发生的条件下事件 $A$ 发生的概率。 $A_1,A_2.\cdots\cdots,A_n$ 为完备事件组。例如有两类数据，如果给定一个 $x$ ，它属于 $c_1$ 的概率为 $P(c_1|x)=\frac {P(x|c_1)P(c_1)}{P(x|c_1)P(c_1)+P(x|c_2)P(c_2)}\tag 3$ 如图

图3 生成模型要知道

P(c_1|x)

的概率就需要知道

P(c_1),P(x|c_1),P(c_2),P(x|c_2)

。再根据

P(x)=P(x|c_1)P(c_1)+P(x|c_2)P(c_2)\tag 4

可计算

x

的概率，如果算出每个训练集中

x

的概率，就知道

x

的分布，就可以从分布中产生新的

x

。因此称之为生成模型（generative model）。
假设现在我们统计180个宝可梦的类别属性，其中有79个水系宝可梦，61个正常系宝可梦，那么

P(c_1)=\frac{79}{(79+61)}=0.56,P(c_2)=\frac{61}{(79+61)}=0.44

，来看看怎么求

P(x|c_1)

。

图4 每个宝可梦我们用一个向量表示，向量里面的值就是这只宝可梦的特征值。画出水系宝可梦的防御力和特殊防御力（一个宝可梦有七个特征，不能在二维平面画出来，这里只画这两个）

图5 高斯分布

图中每一个点代表一个宝可梦，假设有一只我们没见过的宝可梦而说它为水系宝可梦的概率为0显然是不正确的（这只宝可梦一看就知道是水系的），这时候就需要根据训练集数据找出水系宝可梦的概率分布，这里假设服从高斯分布（也可以假设为别的分布）： $f_{u,\Sigma}(x)=\frac1{{2\pi}^{D/2}}\frac1{{|\Sigma|}^{1/2}}exp{(-\frac12(x-u)^T\Sigma^{-1}(x-u))}\tag5$ 其中， $u$ 为均值（mean）， $\Sigma$ 为协方差阵（covariance matrix）。根据这79个点，我们用极大似然估计求出该高斯分布的均值和协方差阵

图6 极大似然估计令似然函数：

L(u,\Sigma)=f_{u,\Sigma}(x^1)f_{u,\Sigma}(x^2),\cdots\cdots,f_{u,\Sigma}(x^{79})\tag6

据此求出

u^*=\frac1{79}\sum\limits_{n=1}^{79}x^n,b^*=\frac1{79}\sum\limits_{n=1}^{79}(x^n-u^*)(x^n-u^*)^T

¹。结果如下图：

图7 极大似然估计结果实际上，这种方法陈为朴素贝叶斯（Naive Bayes）分类。

3.分类

根据上面的分析我们可以做分类了，当求出的 $P(c_1|x)>0$ 时，我们认为宝可梦为水系，否则为正常系。结果如图：

图8 分类那么在测试集上表现如何呢？，如图：

图9 测试集上表现尽管我们试图加入了所有的特征，但是在测试集上表现很差。需要改进。
通常是将两个属性共用一个协方差矩阵，因为如果用不同的协方差矩阵，参数会很多，就容易造成过拟合，减少参数的一个有效方法就是对不同的属性，用相同的协方差矩阵。如图：
图10

图10 相同的协方差矩阵用极大似然估计求出

u_1,u_2

是一样的，

\Sigma=\frac{79}{140}\Sigma^1+\frac{61}{140}\Sigma^2

在测试集结果好多了：
图11

图11 准确度大大提高可以看出准确度提高了很多，而且变成了线性边界。

4.sigmoid函数

图12

图12 sigmoid函数如图，形如

\sigma(z)=\frac1{1+exp(-z)}

的函数称为sgmoid函数。在此，就不写具体的推导过程了，结果就是

P(c_1|x)=\sigma(w\cdot x+b)\tag7

在生成模型里面，我们估计出所需的参数，就能够得到

w, b

，在下一章讲到的逻辑回归里面我们能够直接得到

w, b

。

图13 以上，就是关于分类的笔记内容，欢迎大家批评指正。

具体求解过程请大家参照概率论 ↩︎

既往不恋未来不迎

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
台大李宏毅Machine Learning学习笔记（五）——分类

1. 分类，顾名思义就是给我们一堆输入，某种规则将它们分为几类，例如利用信用卡信誉积分将顾客分为几档，从而决定是否给与贷款；根据病人的年龄、症状、患病时间来判断病人所患的病也是一种分类等等。现在还是以宝可梦为例，假设现在随着宝可梦越来越多，我们想要知道新抓的宝可梦是属于哪一种属性的。先来看看假如用前面学过的线性回归的方法将它作为二值分类来解决会出现什么情况。图1 线性回归失效如图，...
复制链接

扫一扫