lesson2_逻辑回归

Q1. 为什么不能直接用线性回归做分类?尝试从损失函数梯度的角度理解

ANS:线性回归损失函数

线性回归考虑极端情况:当x趋于无穷大的时候,若斜率不变则h(∞)也应该增大,但是线性回归为了满足损失函数最小化,h(∞)会向1靠近,这就会造成斜率逐渐减小,线性函数逐渐趋于水平而无法很好的完成分类的任务;x趋于无穷小时同理。

逻辑回归的损失函数:

逻辑回归考虑极端情况:当x趋于无穷大或无穷小的时候,sigmoid在该点的导数几乎为0,所以极端值在梯度下降求解损失函数最小值的过程中几乎不会产生影响。

Q2. 多重共线性变量会给逻辑回归带来什么问题?为什么?怎么处理?

ANS:多重共线性问题的存在,尤其是非常严重的多重共线性问题的存在,意味着进行回归分析所导入的自变量间存在较强的相关性,而这种相关性的存在会使得统计结果出现系列后果如参数估计的方差和标准差较大、置信区间变宽、显著性检验不通过、R^{2}较高但显著性检验不通过、参数估计及其标准差对数据的敏感性增强且不稳定、回归系数符号有误、各自变量对回归平方和(ESS)或R^{2}的贡献难以衡量、基于样本的结果难以衡量总体的情况。可见,共线性问题,会对模型参数估计产生较大的影响,使得模型参数的不可靠、结果不准确;回归结果仅是样本的特征,并不能用以解释总体。一般而言,通过观察R^{2}、显著性检验结果可大致确定变量间是否存在多重共线性,R^{2}高但显著性检验通过的变量不多,可作为初步判定存在多重共线性的线索。此外,变量相关性检验、偏相关系数检验、从属或辅助回归(某一变量和其他生于变量进行回归分析并计算R2)亦可为多重共线性检验提供有效线索。最为常用的多重共线性检验方法为方差膨胀因子(VIF)。一般以VIF大于8或者10作为判断存在严重多重共线性的标准

多重共线性的处理,可以根据多重共线性问题的产生原因来设计合理的方案。一般而言,多重共线性处理的主要途径包括(1)增加样本或使用较好质量的数据(2)剔除相关性强的变量(3)利用非样本先验信息(4)改变解释变量的形式(5)逐步回归法(6)做主成分回归(7)岭回归、L2正则化

 

Q3. l1与l2正则化会给模型带来什么影响,为什么?

ANS:

1.L1正则化:可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择;在正则化的过程中会趋向于产生少量的特征,而其他的特征都是0(L1会使得参数矩阵变得稀疏)。因此L1不仅可以起到正则化的作用,还可以起到特征选择的作用。

2.L2正则化:L2范数是通过使权重衰减,进而使得特征对于总体的影响减小而起到防止过拟合的作用的。L2的优点在于求解稳定、快速。

备注:L2避免过拟合的原理是让L2范数的规则项\left \| W^{^{^{}}} \right \|^{2} 尽可能小,可以使得W每个元素都很小,接近于零,但是与L1不同的是,不会等于0;这样得到的模型抗干扰能力强,参数很小时,即使样本数据x发生很大的变化,模型预测值y的变化也会很有限可以防止模型过拟合(overfitting)。

从以下三个角度理解:

(1)解空间形状

在二维的情况下,黑色部分为L1和L2正则化约束后的解空间,彩色的等高线是凸优化问题中目标函数的等高线。由图可知,L1正则约束后的解空间为多边形,更容易在尖角处与等高线碰撞出稀疏解。L2正则化约束后的解空间为圆形。事实上,“带正则项”和“带约束条件”是等价的,为了约束\omega的可能取值空间而防止过拟合,我们为该优化问题加上一个约束,就是\omega的L2范数的平方不能大于m

                                                                                                                                                                                 \left\{\begin{matrix} min\sum_{i=1}^{N}(y_{i}-w^{T}x_{i}),& \\ s.t. \left \| w \right \|_{2}^{2}\leq m & \end{matrix}\right.

为了求解带约束条件的凸优化问题,写出拉格朗日函数

                                                                                                                                                                                   \sum_{i=1}^{N}(y_{i}-w^{T}x_{i})^{2}+\lambda (\left \| w \right \|_{2}^{2}-m)

\omega ^{*}\lambda ^{*}分别是原问题和对偶问题的最优解,则根据KKT条件,它们应满足

                                                                                                                                                                                 \left\{\begin{matrix} 0=\bigtriangledown _{w}(\sum_{i=1}^{N}(y_{i}-w^{*T}x_{i})^{2}+\lambda^{*} (\left \| w ^{*}\right \|_{2}^{2}-m)) & \\0\leq \lambda ^{*}\end{matrix}\right.

上式中,第一个式子是\omega ^{*}为带L2正则项的优化问题的最优解的条件,而\lambda ^{*}就是L2正则项前面的正则参数。所以,L2正则化相当于为参数定义了一个圆形的解空间(因为必须保证L2范数不能大于m),而L1正则化相当于为参数定义了一个棱形的解空间。如果原问题的最优解不是恰好落在解空间内,那么约束条件下的最优解一定是在解空间的边界上,而L1“棱角分明”的解空间显然更容易与目标函数等高线在角点碰撞,从而产生稀疏解。

(2)函数叠加

以一维情况为例,

假设紫线是原始目标函数L(w)的曲线图,显然最小值点在绿点处,且对应的\omega ^{*}值非0。首先考虑加上L2正则化项,目标函数变为L(w)+Cw^{^{2}},其函数曲线为蓝色。此时,最小值点在黄色处,对应的\omega ^{*}绝对值减小了,但仍然非0。然后,考虑加上L1正则化项,目标函数变为L(w)+C\left | w \right |,其函数曲线为品红。此时,最小值点在红点处,对应的是w=0,产生了稀疏性。

产生上述现象的原因也很直观。加入L1正则项后,对带正则项的目标函数求导,正则项部分产生的倒数在原点左边为-C,在原点右边为C,因此,只要原目标函数的导数绝对值小于C,那么正则项的目标函数在原点左边部分始终递减,右边部分始终递增,最小指点自然在原点处。相反,L2正则项在原点处的导数为0,只要原目标函数在原点处导数不为0,那么最小值点就不会在原点,所以L2只有减小w绝对值的作用,对空间的稀疏性没有贡献。

(3)贝叶斯先验

L1正则化相当于对模型参数w引入了拉普拉斯先验,L2正则化相当于引入了高斯先验,而拉普拉斯先验使参数为0的可能性更大。

高斯分布在极值点(0点)处是平滑的,也就是高斯先验分布认为w在极值点附近取不同值的可能性是接近的。这是L2正则化只会让w更接近0点,但不会等于0 的原因。

相反,拉普拉斯分布在极值点处是一个尖峰,所以拉普拉斯先验分布中w取值为0的可能性更高。

Q4. 逻辑回归本身只具备线性的表达能力,如何让模型学会非线性关系?

ANS:

使用核技巧(kernel trick)。

 

相关推荐
©️2020 CSDN 皮肤主题: 深蓝海洋 设计师:CSDN官方博客 返回首页