Q1. 为什么不能直接用线性回归做分类?尝试从损失函数梯度的角度理解
ANS:线性回归损失函数
线性回归考虑极端情况:当x趋于无穷大的时候,若斜率不变则h(∞)也应该增大,但是线性回归为了满足损失函数最小化,h(∞)会向1靠近,这就会造成斜率逐渐减小,线性函数逐渐趋于水平而无法很好的完成分类的任务;x趋于无穷小时同理。
逻辑回归的损失函数:
逻辑回归考虑极端情况:当x趋于无穷大或无穷小的时候,sigmoid在该点的导数几乎为0,所以极端值在梯度下降求解损失函数最小值的过程中几乎不会产生影响。
Q2. 多重共线性变量会给逻辑回归带来什么问题?为什么?怎么处理?
ANS:多重共线性问题的存在,尤其是非常严重的多重共线性问题的存在,意味着进行回归分析所导入的自变量间存在较强的相关性,而这种相关性的存在会使得统计结果出现系列后果,如参数估计的方差和标准差较大、置信区间变宽、显著性检验不通过、较高但显著性检验不通过、参数估计及其标准差对数据的敏感性增强且不稳定、回归系数符号有误、各自变量对回归平方和(ESS)或的贡献难以衡量、基于样本的结果难以衡量总体的情况。可见,共线性问题,会对模型参数估计产生较大的影响,使得模型参数的不可靠、结果不准确;回归结果仅是样本的特征,并不能用以解释总体。一般而言,通过观察、显著性检验结果可大致确定变量间是否存在多重共线性,高但显著性检验通过的变量不多,可作为初步判定存在多重共线性的线索。此外,变量相关性检验、偏相关系数检验、从属或辅助回归(某一变量和其他生于变量进行回归分析并计算R2)亦可为多重共线性检验提供有效线