介绍
机器学习是近来最受欢迎的技能之一,我们组织了各种技能测试,以便数据科学家可以检查自己的这些关键技能。这些测试包括机器学习,深度学习,时间序列问题和概率问题。本文将为机器学习技能测试提供解决方案,如果你错过了上述任何一项技能测试,仍然可以通过下面的链接查看问题和答案。
机器学习
-
https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2
深度学习
-
https://www.analyticsvidhya.com/blog/2017/04/40-questions-test-data-scientist-deep-learning
时间序列问题
-
https://www.analyticsvidhya.com/blog/2017/04/40-questions-on-time-series-solution-skillpower-time-series-datafest-2017/
概率问题
-
https://www.analyticsvidhya.com/blog/2017/04/40-questions-on-probability-for-all-aspiring-data-scientists
在机器学习技能测试中,有1350多人报名参加了该测试,该测试旨在测试你是否掌握了机器学习中的概念知识。如果你错过了实时测试,仍然可以阅读本文,来了解如何正确回答这些问题。
这些问题,以及其他数百个问题,都是我们“Ace数据科学访谈”课程(https://courses.analyticsvidhya.com/courses/ace-data-science-interviews) 的一部分,这是一个综合指南,有大量的资源。如果你刚刚开始你的数据科学之旅,那么看看我们最受欢迎的课程——“数据科学导论”!(https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2)
总分
以下是分布得分,它们将帮助你评估自己的成绩。
你可以在此处(https://datahack.analyticsvidhya.com/contest/skillpower-machine-learning/#LeaderBoard) 访问最终成绩,超过210人参加了技能测试,获得的最高分是36。以下是有关分数的一些统计数据。
平均得分:19.36
中位数得分:21
模式得分:27
有用的资源
https://www.analyticsvidhya.com/blog/2015/06/machine-learning-basics
https://courses.analyticsvidhya.com/courses/ace-data-science-interviews
https://courses.analyticsvidhya.com/courses/introduction-to-data-science-2
https://www.analyticsvidhya.com/blog/2017/04/comparison-between-deep-learning-machine-learning/
https://www.analyticsvidhya.com/blog/2015/08/common-machine-learning-algorithms
问题与解决方案
问题背景
特征F1代表大学学生的等级,可以取特定值:A,B,C,D,E和F。
1)在以下情况下,以下哪一项是正确的?
A)特征F1是定类变量的示例。
B)特征F1是定序变量的示例。
C)它不属于上述任何类别。
D)这两个都是
解决方案:(B)
定序变量是在其类别中具有某些顺序的变量,例如应将A级视为比B级更高的等级。
2)以下哪个是确定性算法的示例?
A)PCA
B)K-Means
C)以上都不是
解决方案:(A)
确定性算法是在不同的运行中,其输出不会改变的算法。如果我们再次运行,PCA会给出相同的结果,但K-Means不会。
3) [对或错]两个变量之间的皮尔逊相关性为零,但它们的值仍然可以彼此相关。
A)对
B)错
解决方案:(A)
例如Y = X2,它们不仅相关,而且一个变量是另一个变量的函数,并且它们之间的皮尔逊相关性为零。
4)对于梯度下降(GD)和随机梯度下降(SGD),以下哪个陈述是正确的?
在GD和SGD中,你以迭代方式更新一组参数来最小化误差函数。
在SGD中,你必须遍历训练集中的所有样本,才能在每次迭代中一次更新参数。
在GD中,你可以使用整个数据或训练数据的子集在每次迭代中更新参数。
A)仅1
B)只有2
C)只有3
D)1和2
E)2和3
F)1,2和3
解决方案:(A)
在每次迭代的SGD中,通常选择包含一个批次的随机数据样本,但对于GD,每次迭代均包含所有训练样本。
5)下列哪个超参数增加时,可能会导致随机森林过度拟合数据?
树的数量
树的深度
学习率
A)仅1
B)只有2
C)只有3
D)1和2
E)2和3
F)1, 2和3
解决方案:(B)
通常,如果我们增加树的深度,将导致过拟合。学习率不是随机森林中的超参数,树的数量增加将导致欠拟合。
6)想象一下,你正在使用“ Analytics Vidhya”,并且你想开发一种机器学习算法,该算法可以预测文章的观看次数。
你的分析基于诸如作者姓名、以及同一位作者过去在Analytics Vidhya上撰写的文章数之类的特征以及其他一些特征。在这种情况下,你会选择以下哪个评估指标?
均方误差
准确性
F1分数
A)仅1
B)只有2
C)只有3
D)1和3
E)2和3