测试数据科学家机器学习技能的40个问题

介绍

机器学习是近来最受欢迎的技能之一,我们组织了各种技能测试,以便数据科学家可以检查自己的这些关键技能。这些测试包括机器学习,深度学习,时间序列问题和概率问题。本文将为机器学习技能测试提供解决方案,如果你错过了上述任何一项技能测试,仍然可以通过下面的链接查看问题和答案。

  • 机器学习

    • https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2

  • 深度学习

    • https://www.analyticsvidhya.com/blog/2017/04/40-questions-test-data-scientist-deep-learning

  • 时间序列问题

    • https://www.analyticsvidhya.com/blog/2017/04/40-questions-on-time-series-solution-skillpower-time-series-datafest-2017/

  • 概率问题

    • https://www.analyticsvidhya.com/blog/2017/04/40-questions-on-probability-for-all-aspiring-data-scientists

在机器学习技能测试中,有1350多人报名参加了该测试,该测试旨在测试你是否掌握了机器学习中的概念知识。如果你错过了实时测试,仍然可以阅读本文,来了解如何正确回答这些问题。

这些问题,以及其他数百个问题,都是我们“Ace数据科学访谈”课程(https://courses.analyticsvidhya.com/courses/ace-data-science-interviews) 的一部分,这是一个综合指南,有大量的资源。如果你刚刚开始你的数据科学之旅,那么看看我们最受欢迎的课程——“数据科学导论”!(https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2

总分

以下是分布得分,它们将帮助你评估自己的成绩。

你可以在此处(https://datahack.analyticsvidhya.com/contest/skillpower-machine-learning/#LeaderBoard) 访问最终成绩,超过210人参加了技能测试,获得的最高分是36。以下是有关分数的一些统计数据。

平均得分:19.36

中位数得分:21

模式得分:27

有用的资源

  • https://www.analyticsvidhya.com/blog/2015/06/machine-learning-basics

  • https://courses.analyticsvidhya.com/courses/ace-data-science-interviews

  • https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2

  • https://www.analyticsvidhya.com/blog/2017/04/comparison-between-deep-learning-machine-learning/

  • https://www.analyticsvidhya.com/blog/2015/08/common-machine-learning-algorithms

问题与解决方案

问题背景

特征F1代表大学学生的等级,可以取特定值:A,B,C,D,E和F。

1)在以下情况下,以下哪一项是正确的?

A)特征F1是定类变量的示例。

B)特征F1是定序变量的示例。

C)它不属于上述任何类别。

D)这两个都是

解决方案:(B)

定序变量是在其类别中具有某些顺序的变量,例如应将A级视为比B级更高的等级。

2)以下哪个是确定性算法的示例?

A)PCA

B)K-Means

C)以上都不是

解决方案:(A)

确定性算法是在不同的运行中,其输出不会改变的算法。如果我们再次运行,PCA会给出相同的结果,但K-Means不会。

3) [对或错]两个变量之间的皮尔逊相关性为零,但它们的值仍然可以彼此相关。

A)对

B)错

解决方案:(A)

例如Y = X2,它们不仅相关,而且一个变量是另一个变量的函数,并且它们之间的皮尔逊相关性为零。

4)对于梯度下降(GD)和随机梯度下降(SGD),以下哪个陈述是正确的?

  1. 在GD和SGD中,你以迭代方式更新一组参数来最小化误差函数。

  2. 在SGD中,你必须遍历训练集中的所有样本,才能在每次迭代中一次更新参数。

  3. 在GD中,你可以使用整个数据或训练数据的子集在每次迭代中更新参数。

A)仅1

B)只有2

C)只有3

D)1和2

E)2和3

F)1,2和3

解决方案:(A)

在每次迭代的SGD中,通常选择包含一个批次的随机数据样本,但对于GD,每次迭代均包含所有训练样本。

5)下列哪个超参数增加时,可能会导致随机森林过度拟合数据?

  1. 树的数量

  2. 树的深度

  3. 学习率

A)仅1

B)只有2

C)只有3

D)1和2

E)2和3

F)1, 2和3

解决方案:(B)

通常,如果我们增加树的深度,将导致过拟合。学习率不是随机森林中的超参数,树的数量增加将导致欠拟合。

6)想象一下,你正在使用“ Analytics Vidhya”,并且你想开发一种机器学习算法,该算法可以预测文章的观看次数。

你的分析基于诸如作者姓名、以及同一位作者过去在Analytics Vidhya上撰写的文章数之类的特征以及其他一些特征。在这种情况下,你会选择以下哪个评估指标?

  1. 均方误差

  2. 准确性

  3. F1分数

A)仅1

B)只有2

C)只有3

D)1和3

E)2和3

F)1和2

解决方案:(A)

可以认为文章的观看次数是属于回归问题的连续目标变量,因此均方误差将被用作评估指标。

7)下面给出了三个图像(1,2,3)。以下哪个选项是正确的?

1.

2.

3.

A)1是tanh,2是ReLU,3是SIGMOID激活函数。

B)1是SIGMOID,2是ReLU,3是tanh激活函数。

C)1是ReLU,2是tanh,3是SIGMOID激活函数。

D)1是tanh,2是SIGMOID,3是ReLU激活函数。

解决方案:(D)

SIGMOID函数的范围是[0,1]。

tanh函数的范围是[-1,1]。

RELU函数的范围是[0,infinity]。

因此,选项D是正确的答案。

8)以下是训练文件中目标变量的8个实际值。

[0,0,0,1,1,1,1,1]

目标变量的熵是多少?

A) -(5/8 log(5/8) + 3/8 log(3/8))

B) 5/8 log(5/8) + 3/8 log(3/8)

C) 3/8 log(5/8) + 5/8 log(3/8)

D) 5/8 log(3/8) – 3/8 log(5/8)

解决方案:(A)

熵的公式是  

所以答案是A。

9)假设你正在使用分类特征,但尚未查看测试数据中分类变量的分布,你要在分类特征上应用独热编码(OHE)。如果将OHE应用于训练数据集的分类变量,可能会面临哪些挑战?

A)分类变量的所有类别都不在测试数据集中。

B)与测试数据集相比,类别中的频率分布在训练集中有所不同。

C)训练集和测试集始终具有相同的分布。

D)A和B

E)这些都不是

解决方案:(D)

两者都是正确的,OHE将无法对测试集中存在但不在训练集中的类别进行编码,因此这可能是应用OHE时的主要挑战之一。如果在训练和测试中的频率分布不相同,则选项B中的挑战也确实存在,你在应用OHE时需要更加小心。

10)Skip gram模型是Word2vec算法中用于词嵌入的最佳模型之一。下列哪个模型描述了Skip gram模型?

A)A

B)B

C)A和B

D)这些都不是

解决方案:(B)

Word2vec算法中使用了两个模型(model1和model2)。model1代表CBOW模型,而Model2代表Skip gram模型。

11)假设你正在神经网络的隐藏层中使用激活函数X,对于任何给定的输入,在特定的神经元处,你得到的输出为“ -0.0001”,X可以代表以下哪个激活函数?

A) ReLU

B) tanh

C) SIGMOID

D)这些都不是

解决方案:(B)

该函数为tanh,因为此函数的输出范围在(-1,-1)之间。

12) 对数损失评估指标可以具有负值。

A)真 B)假

解决方案:(B)

对数损失不能为负值。

13)关于“Type1”和“Type2”错误,以下哪个陈述是正确的?

  1. Type1被称为误报,Type2被称为漏报。

  2. Type1被称为漏报,Type2被称为误报。

  3. 当我们拒绝原假设为空的假设时,就会发生Type1错误。

A)仅1

B)只有2

C)只有3

D)1和2

E)1和3

F)2和3

解决方案:(E)

在统计假设检验中,I型错误是对真实无效假设(“误报”)的错误拒绝,而II型错误则是错误地保留了虚假假设(“漏报”)。

14)以下哪项是对基于NLP的项目中的文本预处理的重要步骤之一?

  1. 词干提取

  2. 删除停顿词

  3. 对象标准化

A)1和2

B)1和3

C)2和3

D)1,2和3

解决方案:(D)

词干提取是从单词中去除后缀(“ ing”,“ ly”,“ es”,“ s”等)的基于规则的基本过程。

停顿词是那些与数据上下文无关的词,例如is / am / are。

对象标准化也是预处理文本的好方法之一。

15)假设你要将高维数据投影到低维,此处使用的两种最著名的降维算法是PCA和t-SNE。假设你分别对数据“ X”应用了这两种算法,并且获得了数据集“ X_projected_PCA”,“ X_projected_tSNE”。

对于“ X_projected_PCA”和“ X_projected_tSNE”,以下哪种说法正确?

A)X_projected_PCA将在最近邻空间中进行解释。

B)X_projected_tSNE将在最近邻空间中进行解释。

C)两者都将在最近邻空间中进行解释。

D)他们都不会在最近邻空间进行解释。

解决方案:(B)

t-SNE算法考虑最近邻点以减少数据的维数,因此在使用t-SNE之后,我们可以认为缩小的维数也将在最近邻空间中得到解释,但是对于PCA则不是这样。

问题:16-17

下面给出的是两个特征的三个散点图。

16)在上图中,以下哪个是多重共线特征的示例?

A)图片1中的函数

B)图片2中的函数

C)图片3中的函数

D)图片1和2中的函数

E)图片2和3中的函数

F)图片3和1中的函数

解决方案:(D)

在图像1中,特征具有高正相关性,而在图像2中,特征之间具有高负相关性,因此在两个图像中,特征对都是多重共线特征的示例。

17)在上一个问题中,假设你已确定多重共线特征。你接下来要执行以下哪个操作?

  1. 删除两个共线变量。

  2. 删除两个共线变量中的一个变量。

  3. 删除相关变量可能会导致信息丢失,为了保留这些变量,我们可以使用惩罚回归模型,例如岭回归或套索回归。

A)仅1

B)仅2

C)仅3

D)1或3

E)2或3

解决方案:(E)

你不能同时删除这两个特征,因为在删除这两个特征之后,你将丢失所有信息,因此你应该删除一个特征,或者可以使用L1和L2等正则化算法。

18)将不重要的特征添加到线性回归模型中可能会导致___。

  1. R平方增加

  2. R平方减少

A)只有1正确

B)只有2正确

C)1或2

D)这些都不是

解决方案:(A)

在特征空间中添加特征后,无论该特征是重要特征还是不重要特征,R平方始终会增加。

19)假设给定三个变量X,Y和Z。(X,Y),(Y,Z)和(X,Z)的皮尔逊相关系数分别为C1,C2和C3。

现在,你在X的所有值中加了2(即新值变为X + 2),从Y的所有值中减去了2(即新值是Y-2),Z保持不变。(X,Y),(Y,Z)和(X,Z)的新系数分别由D1,D2和D3给出。D1,D2和D3的值与C1,C2和C3有什么关系?

A)D1 = C1,D2 < C2,D3 > C3

B)D1 = C1,D2 > C2,D3 > C3

C)D1 = C1,D2 > C2,D3 < C3

D)D1 = C1,D2 < C2,D3 < C3

E)D1 = C1,D2 = C2,D3 = C3

F)无法确定

解决方案:(E)

如果你在特征中添加或减去一个值,则特征之间的相关性不会改变。

20)想象一下,你正在解决类别高度不平衡的分类问题。在训练数据中,大多数类别有99%的时间被观察到。

对测试数据进行预测后,你的模型具有99%的准确性,在这种情况下,以下哪一项是正确的?

  1. 对于类别不平衡问题,准确性度量不是一个好主意。

  2. 精度度量是解决类别不平衡问题的一个好主意。

  3. 准确性和召回率指标对于解决类别不平衡问题很有用。

  4. 精度和召回率指标不适用于类别不平衡问题。

A)1和3

B)1和4

C)2和3

D)2和4

解决方案:(A)

参考本文中的问题4。

  • https://www.analyticsvidhya.com/blog/2016/09/40-interview-questions-asked-at-startups-in-machine-learning-data-science/

21)在集成学习中,你汇总了弱学习模型的预测,因此与单个模型的预测相比,这些模型的集成将提供更好的预测。

对于集成模型中使用的弱学习模型,以下哪个陈述是正确的?

  1. 他们通常不会过拟合。

  2. 他们有很高的偏差,所以不能解决复杂的学习问题

  3. 他们通常过拟合。

A)1和2

B)1和3

C)2和3

D)仅1

E)只有2

F)以上都不是

解决方案:(A)

弱学习模型会确定问题的特定部分,因此他们通常不会过拟合,这意味着学习能力弱的学习模型具有较低的方差和较高的偏差。

22)对于 K-fold 交叉验证,以下哪个选项是正确的?

  1. K的增加将导致交叉验证结果所需的时间更长。

  2. 与较低的K值相比,较高的K值将导致交叉验证结果的置信度较高。

  3. 如果K = N,则称为“留一法(交叉验证法)”,其中N是观察数。

A)1和2

B)2和3

C)1和3

D)1,2和3

解决方案:(D)

k值越大,意味着对高估真实预期误差的偏差就越小(因为训练倍数将更接近于总数据集),而运行时间则更长(随着你越来越接近极限情况:留一法交叉验证)。选择k时,我们还需要考虑k倍精度之间的方差。

问题上下文23-24

交叉验证是机器学习中超参数调整的重要步骤,假设你正在通过使用5折交叉验证从基于树的模型的10个不同深度值(值大于2)中选择GBM来调整GBM的超参数“max_depth”。一个算法(在最大深度为2的模型上)4折的训练时间是10秒,剩下1折的预测时间是2秒。注意:公式中忽略硬件依赖性。

23)对于具有10个不同“max_depth”值的5折交叉验证的总体执行时间,以下哪个选项是正确的?

A)少于100秒

B)100 – 300秒

C)300 – 600秒

D)大于或等于600秒

E)以上都不是

F)无法估算

解决方案:(D)

5折交叉验证中深度“2”的每次迭代将花费10秒进行训练,而测试则需要2秒, 因此,5折将花费12 * 5 = 60秒。由于我们正在搜索10个深度值,因此该算法将花费60 * 10 = 600秒。但是,在深度大于2的情况下训练和测试模型所花费的时间将比深度为“2”花费更多的时间,因此总体计时将大于600秒。

24)在上一个问题中,如果你训练相同的算法来调整2个超参数,比如“最大深度”和“学习率”。

你想针对最大深度(从给定的10个深度值)和学习率(从给定的5个不同的学习率)中选择正确的值。在这种情况下,以下哪项将代表总时间?

A)1000-1500秒

B)1500-3000秒

C)大于或等于3000秒

D)这些都不是

解决方案:(D)

与问题23相同。

25)下面给出了针对机器学习算法M1的训练误差TE和验证误差VE的方案,你要基于TE和VE选择一个超参数(H)。

解决方案:(D)你将根据上表选择哪个H值?

根据表格,选择D是最好的

26)你将在PCA中做什么以得到与SVD相同的预测?

A)将数据转换为均值零

B)将数据转换为中位数零

C)不可能

D)这些都不是

解决方案:(A)

当数据的平均值为零时,向量PCA的预测将与SVD相同,否则,在获取SVD之前必须先将数据进行居中。

问题27-28

假设有一个黑盒算法,该算法使用具有多个观测值(t1,t2,t3,……..tn)和一个新观测值(q1)的训练数据,黑盒输出q1的最近邻(例如ti)及其对应的类别标签ci。

你还可以认为该黑盒算法与1-NN(1-最近邻)相同。

27)可以仅基于此黑盒算法来构造k-NN分类算法。

注意:与k相比,n(训练观测值的数量)非常大。

A)真

B)假

解决方案:(A)

第一步,你在黑盒算法中传递了一个观察值(q1),因此该算法将返回最近邻的观察值及其类标签。

在第二步中,你将其从训练数据中选出最接近的观测值,然后再次输入观测值(q1),黑盒算法将再次返回最近邻观测值及其类标签。

你需要重复此过程k次

28)我们不想使用1-NN黑盒,而是要使用j-NN(j> 1)算法作为黑盒,对于使用j-NN查找k-NN,以下哪个选项是正确的?

  1. J必须是k的适当因子

  2. J > k

  3. 不可能

A)1

B)2

C)3

解决方案:(A)

与问题27相同

29)假设你得到7个散点图1-7(从左到右),并且你想比较每个散点图变量之间的皮尔逊相关系数。

以下哪项是正确的顺序?

  1. 1 < 2 < 3 <4

  2. 1 > 2 > 3 > 4

  3. 7 < 6 < 5 <4

  4. 7 > 6 > 5 > 4

A)1和3

B)2和3

C)1和4

D)2和4

解决方案:(B)

从图像1到4的相关性正在降低(绝对值),但是从图像4到7的相关性在增加,但其相关性值是负数(例如0,-0.3,-0.7,-0.99)。

30)你可以使用不同的指标(例如准确性,对数损失,F分数)来评估二分类问题的性能。假设你正在使用对数损失函数作为评估指标,对于将对数损失解释为评估指标,以下哪个选项是正确的?

  1. 如果分类器对错误分类有信心,那么对数损失会对其进行严厉惩罚。

  2. 对于特定的观察结果,分类器为正确的类别分配了很小的概率,那么对数损失的相应贡献将非常大。

  3. 对数损失越低,模型越好。

A)1和3

B)2和3

C)1和2

D)1,2和3

解决方案:(D)

问题31-32

以下是数据集中给出的五个样本。

注意:图像中各点之间的视觉距离代表实际距离。

31)以下哪项是3-NN(3个最近邻)的留一法交叉验证准确性?

A)0

D)0.4

C)0.8

D)1

解决方案:(C)

在“留一法”交叉验证中,我们将选择(n-1)个用于训练的观察值和1个验证观察值,将每个点视为交叉验证点,然后找到该点最近的3个点。

因此,如果你对所有的点重复这个过程,你将得到正确的分类,所有正类在上图中给出,但负类将被错误分类,因此你将得到80%的准确率。

32)以下K值中,哪一个具有最小的留一法交叉验证精度?

A)1NN

B)3NN

C)4NN

D)都有相同的留一法错误

解决方案:(A)

每个点在1-NN中将始终被错误分类,这意味着你将获得0%的精度。

33)假设你获得了以下数据,并且你想应用逻辑回归模型将其分类为两个给定的类。

你正在使用具有L1正则化的逻辑回归。

其中C是正则化参数,w1和w2是x1和x2的系数。

当你将C的值从零增加到非常大的值时,以下哪个选项是正确的?

A)首先w2变为零,然后w1变为零

B)首先w1变为零,然后w2变为零

C)两者同时变为零

D)即使C值很大,两者也不能为零

解决方案:(B)

通过查看图像,我们发现即使仅使用x2,我们也可以有效地执行分类,因此首先w1将变为0,随着正则化参数的增加,w2将越来越接近于0。

34)假设我们有一个数据集,该数据集可以在深度为6的决策树帮助下以100%的精度进行训练。现在考虑下面这些点,并根据这些点选择选项。

注意:所有其他超级参数相同,其他因素不受影响。

1. 深度4将具有高偏差和低方差

2. 深度4将具有低偏差和低方差

A)仅1

B)只有2

C)1和2

D)以上都不是

解决方案:(A)

如果此类数据适合深度为4的决策树,则可能会导致数据拟合不足,因此在拟合不足的情况下,将具有较高的偏差和较低的方差。

35)以下哪些选项可用于获取k-Means算法的全局最小值?

1. 尝试运行用于不同质心初始化的算法

2. 调整迭代次数

3. 找出最佳集群数

A)2和3

B)1和3

C)1和2

D)以上

解决方案:(D)

可以调整所有选项以找到全局最小值。

36)假设你正在开发一个项目,该项目是二分类问题,你在训练数据集上训练了模型,并在验证数据集上获得了以下混淆矩阵。

根据上述混淆矩阵,选择以下哪个选项可以为你提供正确的预测?

1. 准确度约为0.91

2. 错误分类率约为0.91

3. 误报率约为0.95

4. 真阳率为〜0.95

A)1和3

B)2和4

C)1和4

D)2和3

解决方案:(C)

准确性(正确分类)是(50 + 100)/ 165,几乎等于0.91。

真阳率是你正确预测阳性分类的次数,因此真阳率将为100/105 = 0.95,也称为“敏感度”或“召回率”

37)对于以下哪个超参数,决策树算法的值越高越好?

1. 用于拆分的样本数

2. 树的深度

3. 叶子节点样本数

A)1和2

B)2和3

C)1和3

D)1、2和3

E)不能判断

解决方案:(E)

对于所有三个选项A,B和C,没有必要增加参数的值来提高性能。例如,如果我们具有非常高的树深度值,则生成的树可能会使数据过拟合,并且不能很好地泛化使用;另一方面,如果我们的值很低,则树可能不足以容纳数据。因此,我们不能肯定地说“越高越好”。

问题38-39

想象一下,你有一个28 * 28的图像,并且在其上运行了3 * 3的卷积神经网络,输入深度为3,输出深度为8。

注意:“步长”为1,并且你使用的是相同的填充。

38)使用给定参数时,输出特征图的尺寸是多少?

A)宽度28,高度28和深度8

B)宽度13,高度13和深度8

C)宽度28,高度13和深度8

D)宽度13,高度28和深度8

解决方案:(A)

计算输出大小的公式是

输出尺寸=(N – F)/ S + 1

其中,N是输入大小,F是过滤器大小,S是跨度。

阅读本文以获得更好的理解。

  • https://www.analyticsvidhya.com/blog/2016/04/deep-learning-computer-vision-introduction-convolution-neural-networks/

39)使用以下参数时,输出特征图的尺寸是多少?

A)宽度28,高度28和深度8

B)宽度13,高度13和深度8

C)宽度28,高度13和深度8

D)宽度13,高度28和深度8

解决方案:(B)

同上题。

40)假设,我们正在绘制SVM算法中不同C值(惩罚参数)的可视化图。由于某些原因,我们忘记了用可视化标记C值,在这种情况下,对于径向基函数核,以下哪个选项最能说明以下图像的C值?

(从左到右为1,2,3,所以C值对于image1为C1,对于image2为C2,对于image3为C3)。

A)C1 = C2 = C3

B)C1 > C2 > C3

C)C1 < C2 < C3

D)这些都不是

解决方案:(C)

误差项的惩罚参数C,控制着平滑决策边界和正确分类训练点之间的权衡,对于较大的C值,将选择边距较小的超平面进行优化。

在这里阅读更多:https://www.analyticsvidhya.com/blog/2017/09/understaing-support-vector-machine-example-code/

原文链接:https://www.analyticsvidhya.com/blog/2017/04/40-questions-test-data-scientist-machine-learning-solution-skillpower-machine-learning-datafest-2017/

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文(无广告)。

扫描二维码添加小编↓

展开阅读全文
©️2020 CSDN 皮肤主题: 深蓝海洋 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值