推荐算法面经

最新推荐文章于 2024-10-17 15:37:44 发布

虎啸~嘤嘤嘤

最新推荐文章于 2024-10-17 15:37:44 发布

阅读量900

点赞数 19

文章标签：推荐算法机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43880007/article/details/142153350

版权

1. L1 和 L2 正则化的区别？它们都能防止过拟合吗？

L1 正则化：通过加上权重绝对值的和来惩罚模型，使得一些权重变为零，具有稀疏性，适合特征选择。
L2 正则化：通过加上权重平方的和来惩罚模型，权重趋向于较小的值，但不会直接归零，更适合处理共线性问题。

是否都能防止过拟合：两者都能防止过拟合。L1 通过稀疏化权重，L2 通过缩小权重，防止模型对训练数据的过度拟合。

2. 写出 Cross Entropy 的公式，并解释推导过程。

交叉熵的公式为：
$\sum p(x) \log q(x)$
其中， $p (x)$ 是真实分布， $q (x)$ 是预测分布。

从 KL 散度角度：交叉熵可看作是 KL 散度的一部分，它衡量两个分布之间的差异，公式为：
$D_{\text{KL}}(P || Q) = \sum p(x) \log \frac{p(x)}{q(x)} = H(p, q) - H(p)$
最大似然估计角度：交叉熵也可以从最大似然的角度解释，通过最小化交叉熵损失，模型可以最大化真实标签的概率。

3. 解释 dropout 的作用，训练和测试阶段是否有区别，如何解决 dropout 预估偏高的问题？

作用：Dropout 在训练过程中随机丢弃一部分神经元，防止神经网络对训练数据过拟合，增强模型的泛化能力。
训练和测试阶段的区别：训练时随机丢弃神经元；测试时不丢弃，并且要对所有神经元的输出乘以保留率（即未被丢弃的神经元比例），以补偿训练时的随机丢弃。
解决预估偏高问题：在测试阶段要根据保留率缩放神经元输出，以纠正因 dropout 造成的预测偏高。

4. 如何判断模型是否过拟合？

训练集 loss 低，测试集 loss 高：这是典型的过拟合现象。模型在训练集上表现很好，但在测试集上表现较差。
其他判断方法：
- 偏差-方差分解：通过分析模型的偏差和方差，偏差过低而方差过高通常是过拟合的表现。
- 交叉验证：通过交叉验证来评估模型在不同数据子集上的表现，验证过拟合的可能性。

5. 如何缓解过拟合？

常见方法：
- 增加数据量：更多的数据有助于模型学习更多的模式，减少过拟合。
- 正则化：包括 L1、L2 正则化，可以限制模型复杂度。
- Dropout：随机丢弃部分神经元，防止模型对训练数据的依赖。
- 数据增强：对训练数据进行扩充和变换，增加数据的多样性。
- Early stopping：在验证集 loss 不再下降时提前停止训练。

6. 概率题：计算骰子第一次扔到6的次数的期望。

这是一个经典的几何分布问题，概率 $P(X = k) = (1 - p)^{k-1} p$ 。
如果要计算第一次扔到6的期望次数，假设每次投掷独立，掷出6的概率为 $\frac{1}{6}$ ，期望为：
$\frac{1}{p} = 6$

7. 解释 AUC 的定义，它解决了什么问题，优缺点是什么？并说出工业界如何计算 AUC。

AUC（Area Under Curve）：ROC 曲线下面积，衡量模型在不同阈值下的分类性能。AUC 越高，模型的区分能力越强。
解决的问题：在不平衡数据集上，AUC 提供了一个综合指标来评估模型的性能，而不仅依赖于准确率。
优点：
- 对不平衡数据较为稳健。
- 衡量模型在不同阈值下的表现，不依赖单一阈值。
缺点：
- 不适合处理类别极其不平衡的数据。
- 有时难以解释其实际意义，尤其是当 AUC 相似时。
工业界的计算方式：通常使用大型框架（如 sklearn）计算 AUC，在大规模数据上可以通过分批次计算来提高效率。

8. 代码题：计算中缀表达式的结果，包括括号。

这是一个典型的表达式求值问题。你可以使用栈（stack）来处理中缀表达式，处理括号优先级和运算符优先级。

算法步骤：

使用两个栈，一个存储操作数，一个存储操作符。
遇到数字时直接压入操作数栈。
遇到操作符时，根据优先级将其压入操作符栈。
遇到括号时，优先处理括号内的表达式。
根据操作符对操作数进行相应的计算，最后得到结果。

虎啸~嘤嘤嘤

关注

19
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。