机器学习面试题——线性回归LR与逻辑回归LR

冰露可乐

已于 2022-08-26 16:21:24 修改

阅读量1k

点赞数 1

分类专栏：大厂算法岗机器学习深度学习面试题文章标签：面试互联网大厂面试笔试机器学习深度学习逻辑回归线性回归LR

于 2022-04-25 23:09:55 首次发布

本文链接：https://blog.csdn.net/weixin_46838716/article/details/124416362

版权

大厂算法岗机器学习深度学习面试题专栏收录该内容

123 篇文章 141 订阅

订阅专栏

机器学习面试题——线性回归LR与逻辑回归LR

提示：平时除了练习数据结构与算法之外，还需要学习这些机器学习知识

文章目录

机器学习面试题——线性回归LR与逻辑回归LR
@[TOC](文章目录)

题目
逻辑回归 LR 详细推导，LR公式推导
基本条件
损失函数推导
梯度求导

回归和分类的区别，以及两者的优缺点
区别
优点
缺点：

逻辑回归特征是否归一化
什么样的模型需要特征归一化
如何提升LR的模型性能？如何优化LR的性能？
逻辑回归为啥要做特征离散化
最小二乘法在什么条件下与极大似然估计等价？
逻辑回归为什么不用平方损失函数？
LR可以处理非线性情况吗？
LR的参数可以初始化0 吗？
总结

题目

互联网大厂经常会出这些题：
逻辑回归 LR 详细推导
回归和分类的区别
逻辑回归特征是否归一化
什么样的模型需要特征归一化
如何提升LR的模型性能？
逻辑回归为啥要做特征离散化
LR的详细过程，如何优化
lr公式推导
最小二乘法在什么条件下与极大似然估计等价？
逻辑回归为什么不用平方损失函数？
LR可以处理非线性情况吗？
LR的参数可以初始化0 吗？

逻辑回归 LR 详细推导，LR公式推导

基本条件

（1）线性回归：在这里插入图片描述
sigmoid函数:

（2）逻辑回归：

说白了就是把线性回归的结果，输入激活函数就是分类的逻辑回归了。

损失函数推导

对于分类任务：
在这里插入图片描述
最大似然函数：

m个类别
然后取对数：
变乘法为加法

求平均：

梯度求导

在这里插入图片描述
每次梯度下降，迭代后的参数：

回归和分类的区别，以及两者的优缺点

区别

也就是说输出目标不同，自然功能不一样，评价指标肯定也不一样，损失函数自然就不一样。
线性回归是回归（预测regression）【定量问题】，逻辑回归是分类（classification）【定性问题】。
线性回归，输出套上sigmoid函数就成了逻辑回归
两者的的预测目标变量类型不同，回归问题是连续变量，分类问题离散变量。
回归目标是得到最优拟合；而分类目标是得到决策边界
评价指标不同：回归的评价指标通常是MSE；分类评价指标通常是Accuracy、Precision、Recall

优点

（1）模型简单，原理简单易理解
（2）计算代价不高，易于理解和实现。

缺点：

（1）容易过拟合
（2）特征很多的时候，效果不好
（3）处理线性问题效果比较好，而对于更复杂的问题可能束手无策

逻辑回归特征是否归一化

答：是需要归一化的

虽然逻辑回归本身不受量纲影响，
但是其使用梯度下降法求解参数受量纲影响大，如果不进行特征归一化，可能由于变量不同量纲导致参数迭代求解缓慢，影响算法速率。

一般算法如果本身受量纲影响较大，或者相关优化函数受量纲影响大，则需要进行特征归一化

对于决策树这类的算法，不受量纲影响，不需要进行归一化处理。

什么样的模型需要特征归一化

一般算法如果本身受量纲影响较大，或者相关优化函数受量纲影响大，则需要进行特征归一化。

如何提升LR的模型性能？如何优化LR的性能？

（1）想办法获得或构造更多的数据，无论评估模型还是训练，都会更加可靠。
（2）根据业务知识，挖掘更多有价值的Feature，即特征工程。
（3）加入正则化项，L1/L2。交叉验证确定最优的参数。这会加快模型开发速度，会自动化筛选变量。

逻辑回归为啥要做特征离散化

（1）非线性：逻辑回归属于广义线性模型，表达能力受限；单变量离散化为N个后，每个变量有单独的权重，相当于为模型引入了非线性，能够提升模型表达能力，加大拟合；离散特征的增加和减少都很容易，易于模型的快速迭代；
（2）速度快：稀疏向量内积乘法运算速度快，计算结果方便存储，容易扩展；
（3）鲁棒性：离散化后的特征对异常数据有很强的鲁棒性：比如一个特征是“年龄>30是1，否则0”。如果特征没有离散化，一个异常数据“年龄300岁”会给模型造成很大的干扰；
（4）方便交叉与特征组合：离散化后可以进行特征交叉，由M+N个变量变为M*N个变量，进一步引入非线性，提升表达能力；
（5）简化模型：特征离散化以后，起到了简化了逻辑回归模型的作用，降低了模型过拟合的风险。

最小二乘法在什么条件下与极大似然估计等价？

当模型估计值和真实值间的残差项服从均值是0的高斯分布时，就有最小二乘估计和最大似然估计等价。
在这里插入图片描述

逻辑回归为什么不用平方损失函数？

（1）因为平方损失函数权重更新过慢，采用交叉熵损失函数可以完美解决过慢的问题，它具有“误差大的时候，权重更新快；误差小的时候，权重更新慢”的良好性质。
（2）sigmoid作为激活函数的时候，如果采用均方误差损失函数，那么这是一个非凸优化问题，不宜求解，容易陷入局部最优解。而采用交叉熵损失函数依然是一个凸优化问题，更容易优化求解。
这点之前我可不知道……