货拉拉算法工程师笔试题——回忆版

最新推荐文章于 2024-04-28 11:47:05 发布

zhangkkit

最新推荐文章于 2024-04-28 11:47:05 发布

阅读量3.4k

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/zhangkkit/article/details/105752447

版权

题型

单选题	17
多选题	3
问答题	5

单选题

1.有两个样本点，第一个点为负样本,它的特征向量是(0,-1);第二个点为正样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()

A. 2x+y=4

B. x+2y=5

C. x+2y=3

D. 以上都不对
解析：
在这里插入图片描述 2.生成式模式与判定式模式的考查。
生成式：朴素贝叶斯、HMM、Gaussians、马尔科夫随机场
判别式：LR，SVM，神经网络，CRF，Boosting
记住上面的分类应该就没问题了。
3.给出0-1矩阵的定义，求总共有多少种0-1矩阵？

多选题

1.给出4个选项，选择哪些可以做激活函数？
下面哪些是神经网络的激活函数？(ABC)
A. sigmoid
B. ReLU
C. 反正切tanh
D. 交叉熵CE

2.哪些不能用来处理过拟合？

3.机器学习中L1正则化和L2正则化的区别是？
A.使用L1可以得到稀疏的权值
B.使用L1可以得到平滑的权值
C.使用L2可以得到稀疏的权值
D.使用L2可以得到平滑的权值
注：
L1正则化偏向于稀疏，它会自动进行特征选择，去掉一些没用的特征，也就是将这些特征对应的权重置为0.
L2主要功能是为了防止过拟合，当要求参数越小时，说明模型越简单，而模型越简单则，越趋向于平滑，从而防止过拟合。

问答题

xgBoot如何处理缺失值？

1）在特征k上寻找最佳 split point 时，不会对该列特征 missing 的样本进行遍历，而只对该列特征值为 non-missing 的样本上对应的特征值进行遍历，通过这个技巧来减少了为稀疏离散特征寻找 split point 的时间开销。
2）在逻辑实现上，为了保证完备性，会将该特征值missing的样本分别分配到左叶子结点和右叶子结点，两种情形都计算一遍后，选择分裂后增益最大的那个方向（左分支或是右分支），作为预测时特征值缺失样本的默认分支方向。
3）如果在训练中没有缺失值而在预测中出现缺失，那么会自动将缺失值的划分方向放到右子结点。

2.梯度下降法的原理

3.贝叶斯公式？
在这里插入图片描述
公式中，事件Bi的概率为P(Bi)，事件Bi已发生条件下事件A的概率为P(A│Bi)，事件A发生条件下事件Bi的概率为P(Bi│A)。