面试题整理

最新推荐文章于 2021-09-16 10:30:30 发布

夕兮曦兮

最新推荐文章于 2021-09-16 10:30:30 发布

阅读量271

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/xxliu_csdn/article/details/88796759

版权

机器学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

机器学习岗位的面试中通常会对一些常见的机器学习算法和思想进行提问，在平时的学习过程中可能对算法的理论，注意点，区别会有一定的认识，但是这些知识可能不系统，在回答的时候未必能在短时间内答出自己的认识，因此将机器学习中常见的原理性问题记录下来，保持对各个机器学习算法原理和特点的熟练度。
https://www.cnblogs.com/zuochongyan/p/5407053.html
这篇博文开篇说的很对，昨天一场电话面试，很多脑子里明白怎么回事就是说不出来，这也是我为什么整理这篇博文的原因。
机器学习，深度学习面试题持续更新。。。

机器学习

L1和L2正则化的区别

L1是模型各个参数的绝对值之和。
L2是模型各个参数的平方和的开方值。
L1会趋向于产生少量的特征，而其他的特征都是0.
因为最优的参数值很大概率出现在坐标轴上，这样就会导致某一维的权重为0 ，产生稀疏权重矩阵
L2会选择更多的特征，这些特征都会接近于0。
最优的参数值很小概率出现在坐标轴上，因此每一维的参数都不会是0。当最小化||w||时，就会使每一项趋近于0

关于 Bagging 和 Boosting

Bagging

bagging又称为bootstrap aggreagation，通过在训练样本集中进行有放回的采样得到k个采样集（在采样集中，有些样本可能被多次抽取到，而有些样本可能一次都没有被抽中，且k个训练集之间是相互独立的），基于每个采样集训练出一个基学习器，再将基学习器结合，是并行化方法

注：这里并没有具体的分类算法或回归方法，我们可以根据具体问题采用不同的分类或回归方法，如决策树、感知器等）
对分类问题：将上步得到的k个模型采用投票的方式得到分类结果；
对回归问题，计算上述模型的均值作为最后的结果。（所有模型的重要性相同）

随机森林采用的是bagging的思想。随机森林在对决策树进行bagging的基础上，在决策树的训练过程中引入了随机属性选择。传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性，而随机森林则是对结点先随机选择包含k个属性的子集，再选择最有属性，k作为一个参数控制了随机性的引入程度。

Boosting

Boosting会减小在上一轮训练正确的样本的权重，增大错误样本的权重。（对的残差小，错的残差大），因此是串行生成的序列化方法

AdaBoosting方式每次使用的是全部的样本，每轮训练改变样本的权重。下一轮训练的目标是找到一个函数f 来拟合上一轮的残差。当残差足够小或者达到设置的最大迭代次数则停止。
梯度提升的Boosting方式是使用代价函数对上一轮训练出的模型函数f的偏导来拟合残差。
GBDT训练是基于Boosting思想，每一迭代中根据错误更新样本权重

为什么说bagging是减少方差，而boosting是减少偏差

bagging每次训练都是从全部样本中有放回抽样，每个学习器都是独立的，这些学习器的效果有好有坏（模型的方差），但是通过对所有学习器求平均（分类时可以简单投票法），就相当于减少了模型预测结果的波动程度，即减少方差。
boosting每次训练都是对上一次训练的错误样本的纠正（当前训练会增大选取错误样本的权重），模型更容易逼近真实值，模型更准确了，即减少偏差。