机器学习基石-Linear Model for Classification

最新推荐文章于 2023-02-06 20:53:53 发布

遇见更好的自己

最新推荐文章于 2023-02-06 20:53:53 发布

阅读量551

点赞数

分类专栏：机器学习台大林轩田机器学习课程笔记文章标签：机器学习

本文链接：https://blog.csdn.net/yc1203968305/article/details/78593211

版权

机器学习同时被 2 个专栏收录

42 篇文章 2 订阅

订阅专栏

台大林轩田机器学习课程笔记

27 篇文章 5 订阅

订阅专栏

大纲

这里写图片描述

Linear Models for Binary Classification

1 Linear Models Revisited

这里写图片描述

通过上图，我们发现，linear regression和logistic regression的损失函数都是凸函数，都可以方便的求出最小值对应的解，而linear classification的损失函数不易优化，所以我们能否利用linear regression和logistics regression来做linear classification?

2 Error Function Revisited

这里写图片描述
我们对以上三种模型都引入了 $ys$ 变量， $ys$ 变量代表的物理意义是正确性得分，就是分数越大，分类的越好。

3 Visual Error function

这里写图片描述

通过画出损失函数的图像，我们可以发现linear regression和logistic regression的损失函数都是0/1损失函数的上界，将scale版本的logistic regression 损失是0/1损失的一个更好的上界

Theoretical Implication of Upper Bound

这里写图片描述
这里用logistic regression做说明

VC on 0/1
$E 0 / 1 o u t (w) \leq E 0 / 1 i n (w) + Ω 0 / 1 \leq 1 l n 2 E C E i n (w) + Ω 0 / 1$ $\begin{align} E_{out}^{0/1}(w) &\leq E_{in}^{0/1}(w)+\Omega^{0/1}\\ & \leq \frac{1}{ln2}E_{in}^{CE}(w)+\Omega^{0/1} \end{align}$
VC-Reg on CE
$E 0 / 1 o u t (w) \leq 1 l n 2 E C E o u t (w) \leq 1 l n 2 E C E i n (w) + Ω C E$ $\begin{align} E_{out}^{0/1}(w) &\leq \frac{1}{ln2}E_{out}^{CE}(w)\\ & \leq \frac{1}{ln2}E_{in}^{CE}(w)+\Omega^{CE} \end{align}$

所以
small $E_{in}^{CE}(w) \Rightarrow$ small $E_{out}^{0/1}(w)$

Regression for classification

我们可以利用回归来做分类

通过logistics/linear reg在数据机上学习参数 $w_{reg}$
返回函数 $g(x) = sign(w^T_{reg}x)$

这里写图片描述

PLA算法简单，但是只能用于线性可分的场景，对于线性不可分的情况，可以
利用pocket算法
linear regression易于求解，但是对于大 $\vert{ys}\vert$ ，上界过于宽松
logistic regression易于求解，在very negative $ys$ ,上界过于宽松

所以我们一般利用linear regression跑出一初始解 $w_0$ ,然后利用PLA/pocket/logistic regression来继续求解。logistic性能常常优于pocket

Stochastic Gradient Descent

这里写图片描述

SGD简单，计算量小，经常用于海量数据，和在线学习
但是稳定性差

这里写图片描述

SGD logistic regression称之为’soft’ PLA，因为PLA只对分类错误的点进行修正，而SGD logistic regression每次迭代都会进行或多或少的修正。另外，当 $\eta=1$ ，且 $w^Tx_n$ 足够大的时候，SGD近似等于PLA

Multiclass Via Logistic Regression

1 One Class at a Time

这里写图片描述

但是，这样的二分类会带来一些问题，因为我们只用{-1，+1}两个值来标记，那么平面上某些可能某些区域都被上述四次二分类模型判断为负类，即不属于四类中的任何一类；也可能会出现某些区域同时被两个类甚至多个类同时判断为正类，比如某个区域又判定为正方形又判定为菱形。那么对于这种情况，我们就无法进行多类别的准确判断，所以对于多类别，简单的binary classification不能解决问题。

2 One Class at a Time Soft

针对这种问题，我们可以使用另外一种方法来解决：soft软性分类，即不用{-1，+1}这种binary classification，而是使用logistic regression，计算某点属于某类的概率、可能性，取概率最大的值为那一类就好。

这里写图片描述

3 One-Versus-All Decomposition

这里写图片描述

高效
当K很大时，容易造成分类数据不平衡
可以通过多分类算法，softmax来解决

Multiclass Via Binary Classification

One Versus One at a Time

这里写图片描述

这种方法呢，每次只取两类进行binary classification，取值为{-1，+1}。假如k=4，那么总共需要进行 $C^2_4$ =6次binary classification。那么，六次分类之后，如果平面有个点，有三个分类器判断它是正方形，一个分类器判断是菱形，另外两个判断是三角形，那么取最多的那个，即判断它属于正方形，我们的分类就完成了。这种形式就如同k个足球对进行单循环的比赛，每场比赛都有一个队赢，一个队输，赢了得1分，输了得0分。那么总共进行了 $C^2_4$ 次的比赛，最终取得分最高的那个队就可以了。

One Versus One Decomposition

这里写图片描述

高效，稳定
空间复杂度大

遇见更好的自己

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石-Linear Model for Classification

大纲Linear Models for Binary Classification1 Linear Models Revisited通过上图，我们发现，linear regression和logistic regression的损失函数都是凸函数，都可以方便的求出最小值对应的解，而linear classification的损失函数不易优化，所以我们能否利用linear regression和log
复制链接

扫一扫

专栏目录