谷歌、微软、亚马逊、阿里、字节深度学习面试问答整理（中高级）

woliuqiangdong

于 2022-01-29 18:59:50 发布

阅读量205

点赞数

文章标签： microsoft 深度学习面试

原文链接：https://www.guwanba.net/

版权

　　一旦基础不扎实，面试将导致稍微高级的深度学习概念。如果你不仅对数学概念而且对它们进行编码都有相当多的练习，那么这些问题将更容易回答。

　　此外，这些问题也可以变得更加针对项目。根据一般经验，最好在自己的项目中包含如何使用问题中提出的概念的示例。这有三个优点：

　　它会让面试官知道您也有实践经验由于你正在谈论已实施的项目，因此谈论你自己的工作要容易得多且自在展现你的实力的同时，也是你提薪资的底气

　　在这里，我概述了问题中的关键概念–你可以随时自定义答案，以使用其中的一些深度学习算法和技术来增加有关你的体验的更多信息。

　　1、为什么要使用批量归一化？

　　一旦面试官向你询问了深度学习架构的基础知识，他们就会进入提高你的深度学习模型性能的关键主题。

　　批量归一化是用于减少深度学习算法训练时间的技术之一。就像标准化输入有助于改善逻辑回归模型一样，我们也可以标准化深度学习模型中隐藏层的激活：

　　

　　我们基本上在这里归一化a [1]和a [2]。这意味着我们将输入归一化到该层，然后将激活函数应用于归一化的输入。

　　有一篇文章介绍了批处理规范化和其他改进神经网络的技术有需求的可以搜一下：神经网络–超参数调整，正则化和优化。

　　2、列出您迄今为止在项目中使用的激活功能以及选择方式。

　　最常见的激活功能是：

　　乙状结肠hReLU软最大

　　尽管了解所有激活功能并不重要，但你始终可以通过了解这些功能的范围及其用法来获得分数。这是一个方便的表格供你遵循：

　　

　　这是有关如何使用这些和其他激活功能的出色指南的文章有需求的也可以搜索：深度学习的基础知识–激活功能以及何时使用它们？

　　3、为什么卷积神经网络（CNN）可以更好地处理图像数据？

　　这个问题的关键在于卷积运算。与人类不同，机器将图像视为像素值的矩阵。无需解释花瓣或耳朵之类的形状，它仅识别曲线和边缘。

　　因此，与其看整个图像，不如只看部分图像。对300 x 300像素的图像执行此操作将意味着将矩阵分成较小的3 x 3矩阵，并一一处理。这就是卷积。

　　在数学上，我们只需要对矩阵执行一个小操作即可帮助我们检测图像中的特征（例如边界，颜色等）。

　　Z=X * f

　　在这里，我们将输入矩阵X与另一个小的矩阵f（称为内核/过滤器）进行卷积（*运算–不是乘法），以创建一个新的矩阵Z。然后将该矩阵传递给其他层。

　　如果你前面有一块板子/屏幕，可以用一个简单的例子说明一下：

　　

　　4、为什么RNN可以更好地处理文本数据？

　　将递归神经网络（RNN）与其他模型区分开来的主要组件是在每个节点处添加一个循环。该循环带来了RNN中的递归机制。在基本的人工神经网络（ANN）中，每个输入都具有相同的权重，并同时馈入网络。因此，对于“我看过电影并讨厌它”这样的句子，很难捕获将“它”与“电影”相关联的信息。

　　

　　循环的添加是为了表示为下一节点保留前一节点的信息，依此类推。这就是为什么RNN对于顺序数据要好得多的原因，并且由于文本数据本质上也是顺序的，因此它们是对ANN的改进。

　　5、在CNN中，如果输入大小为5 X 5，过滤器大小为7 X 7，那么输出的大小是多少？

　　这是一个非常直观的答案。正如我们在上面看到的，我们一次在右边的“ x”上执行卷积，最后得到尺寸为2 X 2的Z，尺寸为3 X 3的X。

　　因此，为了使输入大小与过滤器大小相似，我们使用填充–在输入矩阵上加上0，以使其新大小至少达到7 X7。因此，输出大小将使用以下公式：

　　图片尺寸=（n，n）=5 X 5

　　过滤器尺寸=（f，f）=7 X 7

　　填充=1（在边缘各添加1个像素，值均为0）

　　输出尺寸为（n + 2p-f + 1）X（n + 2p-f + 1）=1 X 1

　　6、CNN中的有效填充和相同填充之间有什么区别？

　　这个问题有可能成为前一个问题的后续问题。或者，如果您已经说明了如何在计算机视觉任务中使用CNN，那么访调员可能会问这个问题以及填充参数的详细信息。

　　有效填充：当我们不使用任何填充时。卷积后的结果矩阵的尺寸为（n – f + 1）X（n – f + 1）相同的填充：在所有边缘周围添加填充元素，以使输出矩阵的尺寸与输入矩阵的尺寸相同

　　7、爆炸和消失梯度是什么意思？

　　这里的关键是使解释尽可能简单。众所周知，梯度下降算法试图通过朝最小值取小步长来使误差最小。这些步骤用于更新神经网络中的权重和偏差。

　　但是，有时步长会变得太大，从而导致权重和偏差项的更新量更大，以至于导致权重上溢（或NaN）值。这导致算法不稳定，被称为爆炸梯度。

　　另一方面，步幅太小，这导致权重和偏差项的变化很小，甚至有时可以忽略不计。因此，我们最终可能会使用几乎相同的权重和偏差来训练深度学习模型，并且每次都不会达到最小误差函数。这称为消失梯度。

　　需要注意的一点是，这两个问题在递归神经网络中特别明显-因此请为RNN的后续问题做好准备！

　　8、迁移学习在深度学习中有哪些应用？

　　我敢肯定，你会对中高级中包含一个相对简单的问题感到怀疑。原因是它可能产生大量后续问题！

　　迁移学习的使用一直是深度学习的关键里程碑之一。在庞大的数据集上训练大型模型，然后在较小的简单数据集上使用最终参数，已经导致以预训练模型的形式定义突破。无论是计算机视觉还是NLP，预训练模型都已成为研究和行业中的常态。

　　一些流行的示例包括BERT，ResNet，GPT-2，VGG-16等。

　　在这里，你可以通过指出使用这些模型的特定示例/项目以及如何使用它们来获得布朗尼积分。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。