答案见下方
1.如果你有10,000,000个例子,你会如何划分训练/开发/测试集?
A.33%训练,33%开发,33%测试
B.60%训练,20%开发,20%测试
C.98%训练,1%开发,1%测试
2.开发和测试集应该:
A.来自同一分布
B.来自不同分布
C.完全相同(一样的(x, y)对)
D.数据数量应该相同
3.如果你的神经网络方差很高,下列哪个尝试是可能解决问题的?
A.添加正则项
B.获取更多测试数据
C.增加每个隐藏层的神经元数量
D.用更深的神经网络
E.用更多的训练数据
4.你正在为苹果,香蕉和橘子制作分类器。 假设您的分类器在训练集上有0.5%的错误,以及开发集上有7%的错误。 以下哪项尝试是有希望改善你的分类器的分类效果的?
A.增大正则化参数λ
B.减小正则化参数λ
C.获取更多训练数据
D.用更大的神经网络
5.什么是权重衰减?
A.正则化技术(例如L2正则化)导致梯度下降在每次迭代时权重收缩
B.在训练过程中逐渐降低学习率的过程
C.如果神经网络是在噪声数据下训练的,那么神经网络的权值会逐渐损坏
D.通过对权重值设置上限来避免梯度消失的技术
6.当你增大正则化的超参数λ时会发生什么?
A.权重变小(接近0)
B.权重变大(远离0)
C.2倍的λ导致2倍的权重
D.每次迭代,梯度下降采取更大的步距(与λ成正比)
7.在测试时候使用dropout:
A.不随机关闭神经元,但保留1/keep_brob因子
B.随机关闭神经元,保留1/keep_brob因子
C.随机关闭神经元,但不保留1/keep_brob因子
D.不随机关闭神经元,也不保留1/keep_brob因子
8.将参数keep_prob从(比如说)0.5增加到0.6可能会导致以下情况(选出所有正确项):
A.正则化效应被增强
B.正则化效应被减弱
C.训练集的误差会增加
D.训练集的误差会减小
9.以下哪些技术可用于减少方差(减少过拟合)?(选出所有正确项)
A.梯度消失
B.数据扩充
C.Dropout
D.梯度检查
E.Xavier初始化
F.L2正则化
G.梯度爆炸
10.为什么要对输入x进行归一化?
A.让参数初始化更快
B.让代价函数更快地优化
C.更容易做数据可视化
D.是另一种正则化——有助减少方差
答案:
- C
- A
- AE
- AC
- A
- A
- D(dropout只用在训练集上,目的是在每层添加噪声,降低对权重的依赖,从而防止过拟合。但是测试的时候不能用dropout,否则会影响评估.)
- BD(在编写tensorflow程序的时候,会发现训练的时候dropout的参数keep_prob=0.8(0.5,0.9等等),在测试的时候keep_prob=1.0,即不进行dropout。)
- BCF
- B