机器学习基石---Logistic Regression

最新推荐文章于 2023-03-03 09:40:01 发布

维格堂406小队

最新推荐文章于 2023-03-03 09:40:01 发布

阅读量346

点赞数

分类专栏： ★★★机器学习 # ★★台大机器学习

本文链接：https://blog.csdn.net/wendaomudong_l2d4/article/details/79265635

版权

★★★机器学习同时被 2 个专栏收录

62 篇文章 3 订阅

订阅专栏

★★台大机器学习

13 篇文章 0 订阅

订阅专栏

knitr::opts_chunk$set(echo = TRUE)

PLA返回结果是 $\{0,1\}$ ，而逻辑回归是一个Soft Binary Classification，它输出的 $\{y=+1\}$ 的概率。所以 Logistic Regression的目标函数是： $f\left( x \right) = P\left( { + 1|x} \right) \in [0,1]$ 。那么具体算法是什么呢？

Hypothesis Set

Hypothesis如下：

h (x) = 1 1 + exp ( - w T x )

$h\left( x \right) = \frac{1}{{1 + \exp \left( { - {w^T}x} \right)}}$

其中 $s = {{w^T}x}$ 相当于对特征进行加权求和， $\theta \left( s \right) = \frac{{{e^s}}}{{1 + {e^s}}}$ 称为sigmoid函数，作用是将加权求和值 $s$ 的值域映射到 $[0,1]$ 。这样我们就可以得到 $\{y=+1\}$ 的概率。
可以比较线性分类、线性回归、逻辑回归：

这里写图片描述

三种算法都用到了 $w^Tx$ ，但是输出和误差衡量方式都不同。那么逻辑回归的误差衡量应该怎么选取呢？

Error Measure

error的衡量方式是人为规定的，选择不同的error，主要考虑的是损失函数最小化这一步操作是否方便。前面讲的Linear Regression使用平方误差，如果logistic regression采用平方误差，那么损失函数非凸，最小化cost function时候十分困难。因此，在logistic regression中使用极大似然估计求解参数。
traget function $f(x)=P(+1|x)$
考虑训练数据集 $D=\{(x_1,+1),(x_2,-1),...,(x_N,-1)\}$ ，那么训练集产生的概率为：

L i k e h o o d (f) = P (x 1, y 1) * P (x 2, y 2) * \dots * P (x N, y N) = P (x 1) P (y 1 | x 1) * P (x 2) P (y 2 | x 2) * \dots * P (x N) P (y N | x N) = P (x 1) f (x 1) * P (x 2) (1 - f (x 2)) * \dots * P (x N) (1 - f (x N))

$\begin{array}{l} Likehood(f) = P\left( {{x_1},{y_1}} \right) * P\left( {{x_2},{y_2}} \right) * \cdots * P\left( {{x_N},{y_N}} \right)\\ = P\left( {{x_1}} \right)P\left( {{y_1}|{x_1}} \right) * P\left( {{x_2}} \right)P\left( {{y_2}|{x_2}} \right) * \cdots * P\left( {{x_N}} \right)P\left( {{y_N}|{x_N}} \right)\\ = P\left( {{x_1}} \right)f\left( {{x_1}} \right) * P\left( {{x_2}} \right)\left( {1 - f\left( {{x_2}} \right)} \right) * \cdots * P\left( {{x_N}} \right)\left( {1 - f\left( {{x_N}} \right)} \right) \end{array}$
如果

h≈f h ≈ f $h \approx f$ ,

Likehood L i k e h o o d $Likehood$ 应该很接近，并且

Likehood L i k e h o o d $Likehood$ 应当尽可能大。

这里写图片描述

注意到logistic函数有 $1-h(x)=h(-x)$ ，所以似然函数可以写成：

L i k e h o o d (h) = P (x 1) h (x 1) * P (x 2) (1 - h (x 2)) * \dots * P (x N) (1 - h (x N)) = P (x 1) h (y 1 x 1) * P (x 2) h (y 2 x 2) * \dots * P (x N) h (y N x N) \propto \prod n = 1 N h (y n x n) \propto \prod n = 1 N θ (y n w T x n) \propto ln (\prod n = 1 N θ (y n w T x n)) \propto 1 N \sum n = 1 N ln θ (y n w T x n)

$\begin{array}{l} {\rm{Likehood}}\left( h \right) = P\left( {{x_1}} \right)h\left( {{x_1}} \right) * P\left( {{x_2}} \right)\left( {1 - h\left( {{x_2}} \right)} \right) * \cdots * P\left( {{x_N}} \right)\left( {1 - h\left( {{x_N}} \right)} \right)\\ = P\left( {{x_1}} \right)h\left( {{y_1}{x_1}} \right) * P\left( {{x_2}} \right)h\left( {{y_2}{x_2}} \right) * \cdots * P\left( {{x_N}} \right)h\left( {{y_N}{x_N}} \right)\\ \propto \prod\limits_{n = 1}^N {h\left( {{y_n}{x_n}} \right)} \\ \propto \prod\limits_{n = 1}^N {\theta \left( {{y_n}{w^T}{x_n}} \right)} \\ \propto \ln \left( {\prod\limits_{n = 1}^N {\theta \left( {{y_n}{w^T}{x_n}} \right)} } \right)\\ \propto \frac{1}{N}\sum\limits_{n = 1}^N {\ln \theta \left( {{y_n}{w^T}{x_n}} \right)} \end{array}$
现在的目标就是最大化似然函数，也等价于求：

min - 1 N \sum n = 1 N ln θ (y n w T x n) \Rightarrow min 1 N \sum n = 1 N - ln θ (y n w T x n) = min 1 N \sum n = 1 N ln 1 θ ( y n w T x n ) = min 1 N \sum n = 1 N ln (1 + exp (- y n w T x n))

$\begin{array}{l} \min \; - \frac{1}{N}\sum\limits_{n = 1}^N {\ln \theta \left( {{y_n}{w^T}{x_n}} \right)} \\ \Rightarrow \min \;\frac{1}{N}\sum\limits_{n = 1}^N { - \ln \theta \left( {{y_n}{w^T}{x_n}} \right)} \\ = \min \;\frac{1}{N}\sum\limits_{n = 1}^N {\ln \frac{1}{{\theta \left( {{y_n}{w^T}{x_n}} \right)}}} \\ = \min \;\frac{1}{N}\sum\limits_{n = 1}^N {\ln \left( {1 + \exp \left( { - {y_n}{w^T}{x_n}} \right)} \right)} \end{array}$
求和符号后面部分就是误差函数，这种形式的误差函数称为cross entropy error:

e r r (w, x, y) = ln (1 + exp (- y w x))

$err\left( {w,x,y} \right) = \ln \left( {1 + \exp \left( { - ywx} \right)} \right)$
NG的课和李航的书表示误差用的是指数形式的统一表达式：

ln (h (x n) y n (1 - h (x n)) 1 - y n)

$\ln \left( {h{{\left( {{x_n}} \right)}^{{y_n}}}{{\left( {1 - h\left( {{x_n}} \right)} \right)}^{1-{y_n}}}} \right)$
总之，如上的表达式可以看做每个点的损失or成本。

Algorithm

可以证明损失函数是凸函数，即HessianMatrix正定。求解凸函数的最小值，和线性回归类似，我们希望找到一阶导为0。先求一阶导：

\partial E i n \partial w = 1 N \sum n = 1 N ln θ (- y n w T x n) * (- y n x n)

$\frac{{\partial {E_{in}}}}{{\partial w}} = \frac{1}{N}\sum\limits_{n = 1}^N {\ln \theta \left( { - {y_n}{w^T}{x_n}} \right)} * \left( { - {y_n}{x_n}} \right)$
非线性函数，直接求方程比较困难，需要采用迭代的方法。常用的有梯度下降、随机梯度下降、牛顿法等等。之前有写过 1， 2，不多说了。

Summary

大概流程都是先确定hypothesis set,再确定合适的error measure，求损失函数。最后使用算法求出损失函数最小时候的参数值。

2018-02-05 于杭州

维格堂406小队

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基石---Logistic Regression

knitr::opts_chunk$set(echo = TRUE) PLA返回结果是{0,1}" role="presentation">{0,1}{0,1}\{0,1\}，而逻辑回归是一个Soft Binary Classification，它输出的{y=+1}" role="presentation">{y=+1}{y=+1}\{y=+1\}的概率。所以 Logistic Regres
复制链接

扫一扫