Logistic Regression几问

最新推荐文章于 2021-08-22 22:45:47 发布

Jarlene

最新推荐文章于 2021-08-22 22:45:47 发布

阅读量421

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/xwl198937/article/details/79772761

版权

机器学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

Logistic Regression几问

Logistic Regression几问

LR原理

在线性回归的模型中，是求出输出特征向量Y和输入样本矩阵X之间的线性关系系数θ，满足Y=Xθ，此时Y是连续的，如果想要Y输出的不是连续的，有什么办法呢，此时我们加一个激活函数 $g(Y)$ ，此时Y输出值在某个范围中属于类别A，其他范围属于类别B，那么这个就是二元逻辑回归了，如果还有其他的类别则属于多元分类。

Y = θ X

$Y= \theta X$

Z = g (Y)

$Z = g(Y)$ 其中

θ θ $\theta$ 是参数，

g g $g$ 是激活函数，Z是最后的输出。
有了模型，接下来就是设定损失函数，来求解参数。我们以二元逻辑回归为例。

LR代价函数是什么

上一节中，我们阐述了LR的基本模型，但是我们没有设定优化损失函数，这一节我们将以二元逻辑回归为例设计损失函数，同时推广至多元损失函数。
我们知道在线性回归的损失函数是平方差，那么逻辑回归可以使用平方差吗？我们考虑线性回归输出是连续值，但是在逻辑回归是一个分类问题，输出值不连续，这个时候使用平方差就会存在问题（虽然可以强行使用）。因此我们需要寻找其他的损失函数来替代。我们可以从概率学角度进行分析。二元分类结果 $Y=\{0, 1\}$ ，所以其概率分别为：

P (y = 1 | x, θ) = g θ (x)

$P(y=1|x,\theta ) = g_{\theta}(x)$

P (y = 1 | x, θ) = 1 - g θ (x)

$P(y=1|x,\theta ) = 1-g_{\theta}(x)$ 两者统一起来

P (y | x, θ) = g θ (x) y (1 - g θ (x)) 1 - y

$P(y|x,\theta ) = g_{\theta}(x)^y(1-g_{\theta}(x))^{1-y}$ 根据似然函数最大化来求解我们需要的模型系数θ。

L (θ) = \prod i = 1 m (g θ (x (i))) y (i) (1 - g θ (x (i))) 1 - y (i)

$L(\theta) = \prod\limits_{i=1}^{m}(g_{\theta}(x^{(i)}))^{y^{(i)}}(1-g_{\theta}(x^{(i)}))^{1-y^{(i)}}$ 对数似然函数取反即为我们的损失函数

J(θ) J ( θ ) $J(\theta)$ 。

J (θ) = - l n L (θ) = - \sum i = 1 m (y (i) l o g (g θ (x (i))) + (1 - y (i)) l o g (1 - g θ (x (i))))

$J(\theta) = -lnL(\theta) = -\sum\limits_{i=1}^{m}(y^{(i)}log(g_{\theta}(x^{(i)}))+ (1-y^{(i)})log(1-g_{\theta}(x^{(i)})))$ 其中m是样本数。至此，我们就找到了二元逻辑回归的损失函数。如何推广至多元损失函数呢?
假设是K元分类模型,即样本输出y的取值为1，2，…. ，K。二元逻辑回归的经验，可以得到：

P (y = 1 | x, θ) = g θ (x)

$P(y=1|x,\theta ) = g_{\theta}(x)$

P (y = 0 | x, θ) = 1 - g θ (x)

$P(y=0|x,\theta ) = 1-g_{\theta}(x)$ 那么

l n P ( y = 1 | x , θ ) P ( y = 0 | x , θ ) = l n g θ 1 ( x ) 1 - g θ 0 ( x )

$ln\frac{P(y=1|x,\theta )}{P(y=0|x,\theta)} = ln \frac{g_{\theta_1}(x)} {1-g_{\theta_0}(x)}$

l n P ( y = 0 | x , θ ) P ( y = K | x , θ ) = l n g θ 0 ( x ) 1 - g θ K ( x )

$ln\frac{P(y=0|x,\theta )}{P(y=K|x,\theta)} = ln \frac{g_{\theta_0}(x)} {1-g_{\theta_K}(x)}$

l n P ( y = 1 | x , θ ) P ( y = K | x , θ ) = l n g θ 1 ( x ) 1 - g θ K ( x )

$ln\frac{P(y=1|x,\theta )}{P(y=K|x,\theta)} = ln \frac{g_{\theta_1}(x)} {1-g_{\theta_K}(x)}$

l n P ( y = 2 | x , θ ) P ( y = K | x , θ ) = l n g θ 2 ( x ) 1 - g θ K ( x )

$ln\frac{P(y=2|x,\theta )}{P(y=K|x,\theta)} = ln \frac{g_{\theta_2}(x)} {1-g_{\theta_K}(x)}$

. . . .

$....$

l n P ( y = K - 1 | x , θ ) P ( y = K | x , θ ) = l n g θ K - 1 ( x ) 1 - g θ K ( x )

$ln\frac{P(y=K-1|x,\theta )}{P(y=K|x,\theta)} = ln \frac{g_{\theta_{K-1}}(x)} {1-g_{\theta_K}(x)}$ 加上归一化条件

\sum i = 1 K P (y = i | x, θ) = 1

$\sum\limits_{i=1}^{K}P(y=i|x,\theta ) = 1$ 组成K个线性方程组，依次可以求得：

P (y = k | x, θ)

$P(y=k|x,θ)$ 至此，我们将损失函数推广至多元态。那么剩下的问题就是，如果挑选激活函数

g g $g$ 。

LR激活函数为什么是sigmoid

我们重新来看二元逻辑回归的概率解释，假设x为正太分布，Y只有0和1两类，且

P (y = 1) = π 1, P (y = 0) = π 0

$P(y=1) = \pi_1, P(y=0) = \pi_0$ 那么

P (y = 1 | x) = P ( y = 1 , x ) P ( x ) = π 0 N ( x | u 1 , Σ 1 ) \sum i π i N ( x | u i , Σ i ) = π 0 N ( x | u 1 , Σ 1 ) π 0 N ( x | u 0 , Σ 0 ) + π 1 N ( x | u 1 , Σ 1 ) = 1 1 + π 0 N ( x | u 0 , Σ 0 ) π 1 N ( x | u 1 , Σ 1 )

$P(y=1|x) =\frac {P(y=1, x)} {P(x)}=\frac {\pi_0 N(x|u_1,\Sigma_1)}{\sum\limits_{i}{\pi_i N(x|u_i,\Sigma_i)}}=\frac {\pi_0 N(x|u_1,\Sigma_1)}{\pi_0 N(x|u_0,\Sigma_0) + \pi_1 N(x|u_1,\Sigma_1)}=\frac{1}{1+\frac{\pi_0 N(x|u_0,\Sigma_0) } {\pi_1 N(x|u_1,\Sigma_1)}}$ 从此处看，我已经可以看出sigmoid的影子了。实际上这是由于x的假设具有exponential family（其实是exponential family中的伯努利分布性质）所具有的性质，其实这也是最大熵模型具有的性质。那么最大熵模型与LR究竟有什么关联呢？

LR与最大熵模型的关系

上一节中，我阐述了激活函数为什么sigmoid，这是有我们假设了数据服从伯努利分布，进而一步步推导出来。但是上一节中也提出了一个问题即，最大熵模型与LR的关系。那么我先了解一下最大熵模型。
熵度量了事物的不确定性，越不确定的事物，它的熵就越大。实际上人们学习知识的过程就是一个减熵的过程；下面介绍最大熵模型：
设 $X$ 和 $Y$ 分别是输入输出数据集，最大熵模型可以表示为给定输入 $X$ ，以条件概率 $P(Y|X)$ 输出的Y。在给定训练数据集的情况下，我可以得到 $P(X,Y)$ 的经验分布 $\overline{P}(X,Y)$ 边缘分布 $P(X)$ 的经验分布 $\overline{P}(X)$ 。

P ⎯ ⎯ ⎯ ⎯ (X, Y) = P ⎯ ⎯ ⎯ ⎯ (X = x, Y = y) = f ( X = x , Y = y ) N

$\overline{P}(X,Y)=\overline{P}(X=x,Y=y)=\frac{f(X=x, Y=y)}{N}$

P ⎯ ⎯ ⎯ ⎯ (X) = P ⎯ ⎯ ⎯ ⎯ (X = x) = f ( X = x ) N

$\overline{P}(X)=\overline{P}(X=x)=\frac{f(X=x)}{N}$ 其中

f(x,y) f ( x , y ) $f(x, y)$ 是特征函数描述输入x和输出y之间的关系。

f (x, y) = {10 x 与 y 满 足 某 个 关 系 否 则

$f(x,y)= \begin{cases} 1& {x与y满足某个关系}\\ 0& {否则} \end{cases}$ 那么特征函数

f(x,y) f ( x , y ) $f(x, y)$ 关于经验分布

P⎯⎯⎯⎯(X,Y) P ¯ ( X , Y ) $\overline{P}(X,Y)$ 的期望为：

E P ⎯ ⎯ ⎯ ⎯ (f) = \sum x, y P ⎯ ⎯ ⎯ ⎯ (x, y) f (x, y)

$E_{\overline{P}}(f) = \sum\limits_{x,y}\overline{P}(x,y)f(x,y)$ 特征函数

f(x,y) f ( x , y ) $f(x, y)$ 关于条件分布

P(Y|X) P ( Y | X ) $P(Y|X)$ 和经验分布

P⎯⎯⎯⎯(X) P ¯ ( X ) $\overline{P}(X)$ 的期望值为：

E P (f) = \sum x, y P ⎯ ⎯ ⎯ ⎯ (x) P (y | x) f (x, y)

$E_{P}(f) = \sum\limits_{x,y}\overline{P}(x)P(y|x)f(x,y)$ 模型训练过程中，我们可以认为

E P ⎯ ⎯ ⎯ ⎯ (f) = E P (f)

$E_{\overline{P}}(f) = E_{P}(f)$ 假如我们有M个特征函数

fi(x,y)(i=1,2...,M) f i ( x , y ) ( i = 1 , 2... , M ) $f_i(x,y) (i=1,2...,M)$ 就有M个约束条件:

E P ⎯ ⎯ ⎯ ⎯ (f i) = E P (f i) (i = 1, 2, . . . M)

$E_{\overline{P}}(f_i) = E_{P}(f_i) (i=1,2,...M)$ 定义在条件概率分布P(Y|X)上的条件熵为:

H (P) = - \sum x, y P ⎯ ⎯ ⎯ ⎯ (x) P (y | x) l o g P (y | x)

$H(P) = -\sum\limits_{x,y}\overline{P}(x)P(y|x)logP(y|x)$ 我们的目标是得到使

H(P) H ( P ) $H(P)$ 最大的时候对应的

P(y|x) P ( y | x ) $P(y|x)$ ,这里可以对

H(P) H ( P ) $H(P)$ 加了个负号求极小值，这样做的目的是为了使

−H(P) − H ( P ) $−H(P)$ 为凸函数，方便使用凸优化的方法来求极值。因此最大熵模型为：

m i n ⏟ P - H (P) = \sum x, y P ⎯ ⎯ ⎯ ⎯ (x) P (y | x) l o g P (y | x)

$\underbrace{ min }_{P} -H(P) = \sum\limits_{x,y}\overline{P}(x)P(y|x)logP(y|x)$ 约束条件为：

E P ⎯ ⎯ ⎯ ⎯ (f i) - E P (f i) = 0 (i = 1, 2, . . . M)

$E_{\overline{P}}(f_i) - E_{P}(f_i) = 0 (i=1,2,...M)$

\sum y P (y | x) = 1

$\sum\limits_yP(y|x) = 1$ 引入拉格朗日乘子，定义拉格朗日函数进行求解：

L (P, w) \equiv - H (P) + w 0 (1 - \sum y P (y | x)) + \sum i = 1 M w i (E P ⎯ ⎯ ⎯ ⎯ (f i) - E P (f i))

$L(P,w) \equiv -H(P) + w_0(1 - \sum\limits_yP(y|x)) + \sum\limits_{i=1}^{M}w_i(E_{\overline{P}}(f_i) - E_{P}(f_i))$ 其中

wi w i $w_i$ 是拉格朗日乘子，这样我们就将原问题

m i n ⏟ P m a x ⏟ w L (P, w)

$\underbrace{ min }_{P} \underbrace{ max }_{w}L(P, w)$ 转化为对偶问题

m a x ⏟ w m i n ⏟ P L (P, w)

$\underbrace{ max}_{w} \underbrace{ min }_{P}L(P, w)$ 由于

min⏟PL(P,w) m i n ⏟ P L ( P , w ) $\underbrace{ min }_{P}L(P, w)$ 是一个凸优化问题，那么我们求的极小值就是最优解，

\partial L ( P , w ) \partial P ( y | x ) = \sum x, y P ⎯ ⎯ ⎯ ⎯ (x) (l o g P (y | x) + 1) - \sum y w 0 - \sum x, y (P ⎯ ⎯ ⎯ ⎯ (x) \sum i = 1 M w i f i (x, y)) = 0

$\frac{\partial L(P, w)}{\partial P(y|x)} = \sum\limits_{x,y}\overline{P}(x)(logP(y|x) +1) - \sum\limits_yw_0 - \sum\limits_{x,y}(\overline{P}(x)\sum\limits_{i=1}^{M}w_if_i(x,y))=0$ 可以得到

P(y|x) P ( y | x ) $P(y|x)$ 如下：

P (y | x) = e x p (\sum i = 1 M w i f i (x, y) + w 0 - 1) = e x p ( \sum i = 1 M w i f i ( x , y ) ) e x p ( 1 - w 0 )

$P(y|x) = exp(\sum\limits_{i=1}^{M}w_if_i(x,y) +w_0 -1) = \frac{exp(\sum\limits_{i=1}^{M}w_if_i(x,y))}{exp(1-w_0)}$ 由于约束条件

∑yP(y|x)=1 ∑ y P ( y | x ) = 1 $\sum\limits_yP(y|x) = 1$ ,因此我们可以得到

Pw(y|x) P w ( y | x ) $P_w(y|x)$ 表达式如下：

P w (y | x) = 1 Z w ( x ) e x p (\sum i = 1 M w i f i (x, y))

$P_w(y|x) = \frac{1}{Z_w(x)}exp(\sum\limits_{i=1}^{M}w_if_i(x,y))$ 其中

Zw(x) Z w ( x ) $Z_w(x)$ 为规范化因子，定其形式如下：

Z w (x) = \sum y e x p (\sum i = 1 M w i f i (x, y))

$Z_w(x) = \sum\limits_yexp(\sum\limits_{i=1}^{M}w_if_i(x,y))$ 接下来第二步，我们需要求

max⏟wPw(y|x) m a x ⏟ w P w ( y | x ) $\underbrace{ max}_{w}P_w(y|x)$ ，我们直接采用求偏导数。之后将w代入上面的

Pw(y|x) P w ( y | x ) $P_w(y|x)$ ，这样我们对最大熵模型就有了足够的了解了。
最大熵模型与LR模型有类似的形式，它们又称为对数线性模型(log linear model)。模型学习就是在给定的训练数据条件下对模型进行极大似然估计或正则化的极大似然估计。

回过头来我们再看LR模型，假设数据第i个特征对第k类的贡献是 $w_{ki}$ ，因为一个样本属于各类的概率之和为1，所以可以得到

P (y = k) = exp ( \sum i w k i x i ) \sum k ' exp ( \sum i w k ' i x i )

$P(y = k) = \frac{\exp(\sum_{i} w_{ki}x_i)}{\sum_{k'} \exp(\sum_{i} w_{k'i}x_i)}$ 回到二元LR模型

P (y = 1) = exp ( \sum i w 1 i x i ) exp ( \sum i w 1 i x i ) + exp ( \sum i w 0 i x i ) = 1 1 + exp ( - \sum i w i x i )

$P(y = 1) = \frac{\exp(\sum_{i} w_{1i}x_i)}{\exp(\sum_{i} w_{1i}x_i) + \exp(\sum_{i} w_{0i}x_i)}= \frac{1}{1 + \exp(-\sum_{i} w_i x_i)}$ 其中参数

wi w i $w_i$ 表示第i个特征对1类的贡献比对0类的贡献多多少。通过上面的描述我们可以得知LR和MaxEntropy模型具有异曲同工之妙。

LR如何防止过拟合以及为什么这些手段可以防止过拟合

通用的防止过拟合的问题的方法有两种，增加L1范数或者增加L2范数。那么L1范数和L2范数为什么都可以防止过拟合呢？同时为什么L1范数可以得到稀疏解呢？首先我们需要了解为什么会有过拟合，过拟合的本质是什么。过拟合的表现是训练数据模型拟合能力非常好，而测试数据拟合能力较为差，导致这一原因的因素是，数据中存在噪声，当我们在训练的时候，迭代过程中有噪声的作用，使得训练出来的权值参数( $w$ )是一个非常大值，那么这个是样本数据只要稍微的变化一点，就有可能导致输出结果变化非常大(类似 $\Delta x*w$ 非常大)，这个时候就容易产生我们所谓的过拟合。明白了过拟合是怎么产生的之后，我就看L1范数和L2范数怎么解决这个问题。因为L2范数是可导的，我们先介绍L2范数。

L (w) = L o + λ 2 n \sum w w 2

$L(w)=L_o+\frac{\lambda}{2n}\sum_{w} w^2$

\partial L ( w ) \partial w = \partial L o \partial w + λ n w

$\frac{\partial L(w)}{\partial w} = \frac{\partial L_o}{\partial w} + \frac{\lambda}{n} w$

w \to w - \partial L ( w ) \partial w = w - η \partial L o \partial w - η λ n w

$w \to w-\frac{\partial L(w)}{\partial w}= w -\eta\frac{\partial L_o}{\partial w} - \frac{\eta \lambda}{n} w$ 从上式可以看出，加入L2正则化主要是减小参数

w w $w$ ，从而达到防止过拟合效果。L1范数由于不可导性，不能只求导，因此我们需要绕道而行，常用的方法是坐标轴下降法或者Lasso回归法，这里不详细介绍。其实除此之外，我们也可以用分段求导来计算。

L (w) = L_{o} + \frac{λ}{2 n} \sum_{w} | w |

$L(w)=L_o+\frac{\lambda}{2n}\sum_{w} |w|$

\partial L ( w ) \partial w = \partial L o \partial w + λ n s g n (w)

$\frac{\partial L(w)}{\partial w} = \frac{\partial L_o}{\partial w} + \frac{\lambda}{n} sgn(w)$

w \to w - \partial L ( w ) \partial w = w - η \partial L o \partial w - η λ n s g n (w)

$w \to w-\frac{\partial L(w)}{\partial w}= w -\eta\frac{\partial L_o}{\partial w} - \frac{\eta \lambda}{n} sgn(w)$ 从此处可以看到L1范数的作用效果和L2范数作用效果是一样的，都是使得参数减小。当w小于1的时候，L2正则项的惩罚效果越来越小，L1正则项惩罚效果依然很大，L1可以惩罚到0，而L2却很难，因此L1范数相对来说更容易获得稀疏解。我们从概率学的角度来分析一下L1范数和L2范数。

L1,L2范数来自于对数据的先验知识，如果现有的数据来自于高斯分布,那么就应该在代价函数中加入数据先验 $P(x)$ 或者是对数似然 $logP(x)$ ，然后再去优化,这样最终的结果是，由于模型参数考虑了数据先验,模型效果就更好。如果数据是稀疏的,可以认为数据是服从拉普拉斯分布。通过对高斯分布和拉普拉斯分布执行对数似然，剩下的部分就是参数 w <script type="math/tex" id="MathJax-Element-86">w</script>的平方项或者绝对值项。从这点看，我们认为加入正则化项是源于我们得知了数据的先验知识。
因此我们从两个方面解释了正则化为什么可以防止过拟合。

如何利用LR解决非线性问题

SVM算法和PCA（将维）中解决非线性的问题是采用了核方法，因此LR解决非线性的方法也可以采用核函数进行升维，变成线性处理

Jarlene

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Logistic Regression几问

Logistic Regression几问Logistic Regression几问LR原理LR代价函数是什么LR激活函数为什么是sigmoidLR与最大熵模型的关系LR如何防止过拟合以及为什么这些手段可以防止过拟合如何利用LR解决非线性问题LR原理在线性回归的模型中，是求出输出特征向量Y和输入样本矩阵X之间的线性关系系数θ，满足Y=Xθ，此时Y是连续的，...
复制链接

扫一扫