BAT机器学习面试题及解析

最新推荐文章于 2024-01-03 10:42:21 发布

测试__昵称

最新推荐文章于 2024-01-03 10:42:21 发布

阅读量1.9k

点赞数

256.对于下图, 最好的主成分选择是多少 ?

A. 7

B. 30

C. 35

D. 不确定

点击下方空白处可显示答案

答案: B

主成分选择使variance越大越好，在这个前提下，主成分越少越好。

257.数据科学家可能会同时使用多个算法（模型）进行预测，并且最后把这些算法的结果集成起来进行最后的预测（集成学习），以下对集成学习说法正确的是 :

A. 单个模型之间有高相关性

B. 单个模型之间有低相关性

C. 在集成学习中使用“平均权重”而不是“投票”会比较好

D. 单个模型都是用的一个算法

点击下方空白处可显示答案

答案: B

详细请参考下面文章:

Basics of Ensemble Learning Explained in Simple English（https://www.analyticsvidhya.com/blog/2015/08/introduction-ensemble-learning/）
Kaggle Ensemble Guide（http://mlwave.com/kaggle-ensembling-guide/）
5 Easy questions on Ensemble Modeling everyone should know（https://www.analyticsvidhya.com/blog/2015/09/questions-ensemble-modeling/）

258.在有监督学习中，我们如何使用聚类方法？

1. 我们可以先创建聚类类别，然后在每个类别上用监督学习分别进行学习

2. 我们可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习

3. 在进行监督学习之前，我们不能新建聚类类别

4. 我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习

A. 2 和 4

B. 1 和 2

C. 3 和 4

D. 1 和 3

点击下方空白处可显示答案

答案: B

我们可以为每个聚类构建不同的模型，提高预测准确率。

“类别id”作为一个特征项去训练，可以有效地总结了数据特征。

所以B是正确的

259.以下说法正确的是 :

1. 一个机器学习模型，如果有较高准确率，总是说明这个分类器是好的

2. 如果增加模型复杂度，那么模型的测试错误率总是会降低

3. 如果增加模型复杂度，那么模型的训练错误率总是会降低

4. 我们不可以使用聚类“类别id”作为一个新的特征项，然后再用监督学习分别进行学习

A. 1

B. 2

C. 3

D. 1 and 3

点击下方空白处可显示答案

答案: C

考的是过拟合和欠拟合的问题。

260.对应GradientBoosting tree算法，以下说法正确的是 :

1. 当增加最小样本分裂个数，我们可以抵制过拟合

2. 当增加最小样本分裂个数，会导致过拟合

3. 当我们减少训练单个学习器的样本个数，我们可以降低variance

4. 当我们减少训练单个学习器的样本个数，我们可以降低bias

A. 2 和 4

B. 2 和 3

C. 1 和 3

D. 1 和 4

答案: C

最小样本分裂个数是用来控制“过拟合”参数。太高的值会导致“欠拟合”，这个参数应该用交叉验证来调节。

第二点是靠bias和variance概念的。

261.以下哪个图是KNN算法的训练边界 ?

A) B

B) A

C) D

D) C

E) 都不是

点击下方空白处可显示答案

答案: B

KNN算法肯定不是线性的边界，所以直的边界就不用考虑了。另外这个算法是看周围最近的k个样本的分类用以确定分类，所以边界一定是坑坑洼洼的。

262.如果一个训练好的模型在测试集上有100%的准确率，这是不是意味着在一个新的数据集上，也会有同样好的表现？ :

A. 是的，这说明这个模型的范化能力已经足以支持新的数据集合了

B. 不对，依然后其他因素模型没有考虑到，比如噪音数据

点击下方空白处可显示答案

答案: B
没有一个模型是可以总是适应新数据的。我们不可能可到100%准确率。

263.下面的交叉验证方法 :

i. 有放回的Bootstrap方法

ii. 留一个测试样本的交叉验证

iii. 5折交叉验证

iv. 重复两次的5折教程验证

当样本是1000时，下面执行时间的顺序，正确的是：

A. i > ii > iii > iv

B. ii > iv > iii > i

C. iv > i > ii > iii

D. ii > iii > iv > i

点击下方空白处可显示答案

答案: B

Boostrap方法是传统地随机抽样，验证一次的验证方法，只需要训练1次模型，所以时间最少。
留一个测试样本的交叉验证，需要n次训练过程（n是样本个数），这里，要训练1000个模型。
5折交叉验证需要训练5个模型。
重复2次的5折交叉验证，需要训练10个模型。

264.变量选择是用来选择最好的判别器子集，如果要考虑模型效率，我们应该做哪些变量选择的考虑？ :

1. 多个变量其实有相同的用处
2. 变量对于模型的解释有多大作用
3. 特征携带的信息
4. 交叉验证

A. 1 和 4

B. 1, 2 和 3

C. 1,3 和 4

D. 以上所有

点击下方空白处可显示答案

答案: C

注意，这题的题眼是考虑模型效率，所以不要考虑选项2.

265.对于线性回归模型，包括附加变量在内，以下的可能正确的是 :

1. R-Squared 和 Adjusted R-squared都是递增的
2. R-Squared 是常量的，Adjusted R-squared是递增的
3. R-Squared 是递减的， Adjusted R-squared 也是递减的
4. R-Squared 是递减的， Adjusted R-squared是递增的

A. 1 和 2

B. 1 和 3

C. 2 和 4

D. 以上都不是

点击下方空白处可显示答案

答案: D

R-squared不能决定系数估计和预测偏差，这就是为什么我们要估计残差图。但是，R-squared有R-squared 和 predicted R-squared 所没有的问题。
每次你为模型加入预测器，R-squared递增或不变.

测试__昵称

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
BAT机器学习面试题及解析

256.对于下图, 最好的主成分选择是多少 ? A. 7B. 30C. 35D. 不确定点击下方空白处可显示答案答案: B主成分选择使variance越大越好，在这个前提下，主成分越少越好。257.数据科学家可能会同时使用多个算法（模型）进行预测，并且最后把这些算法的结果集成起来进行最后的预测（集成学
复制链接

扫一扫