文章目录
-
-
- 1.画出在二元输入的情况下,表示异或逻辑的网络图
- 2.写出Sigmoid,tanh,relu的激活函数及对应导数
- 3.为什么Sigmoid和tanh函数会导致梯度消失?
- 4.ReLU系列的激活函数相对于Sigmoid和Tanh函数的优点是什么,有什么局限性?如何改进?
- 5. 为什么引入非线性激励函数?
- 6.如何选择合适的激活函数?
- 6.多层感知机的前向传播与后向传播过程
- 7.平方误差损失函数和交叉熵损失函数分别适合什么场景?
- 8.神经网络参数是否可以初始化为同一个值,为什么?
- 9.请介绍Dropout,并分析dropout抑制过拟合的工作原理
- 10.为什么需要进行批量归一化?
- 11.批量归一化在卷积神经网络中是如何使用的?
- 12.CNN中的权值共享是什么?为什么CNN要用权值共享?
- 13.CNN中的局部连接是什么?为什么CNN要用局部连接?
- 14.CNN中卷积层中的操作有哪些?
- 15.CNN中池化层中的操作有哪些?
- 16.卷积神经网络如何用于文本分类任务?
- 17.CNN出现梯度消失怎么办?
- 18.增加神经网络层数有什么用?
- 19.ResNet的提出背景是什么?其核心理论是什么?
-
这是一份精心总结的关于前馈神经网络面试中常见问题,如果对您有帮助的话,不妨点赞、收藏、关注!!!
插眼:
- 百面机器学习—1.特征工程
- 百面机器学习—2. 特征工程与模型评估要点总结
- 百面机器学习—3.逻辑回归与决策树要点总结
- 百面机器学习—4.SVM模型基础知识
- 百面机器学习—5.SVM要点总结
- 百面机器学习—6.PCA与LDA要点总结
- 百面机器学习—7.K均值算法、EM算法与高斯混合模型要点总结
- 百面机器学习—8.概率图模型之HMM模型
- 百面机器学习—9.前馈神经网络面试问题总结
- 百面机器学习—10.循环神经网络面试问题总结
- 百面机器学习—11.集成学习(GBDT、XGBoost)面试问题总结
- 百面机器学习—12.优化算法
1.画出在二元输入的情况下,表示异或逻辑的网络图
其中, Z 1 Z_1 Z1和 Z 2 Z_2 Z2是两个隐藏单元
在隐藏单元 Z 1 Z_1 Z1中, X X X和 Y Y Y的输入权重均为1,偏置为-1, H 1 = X + Y − 1 H_1=X+Y-1 H1=X+Y−1, Z 1 = m a x ( 0 , H 1 ) Z_1=max(0,H_1) Z1=max(0,H1)
在隐藏单元 Z 2 Z_2 Z2中, X X X和 Y Y Y的输入权重均为-1,偏置为1, H 2 = − X − Y + 1 H_2=-X-Y+1 H2=−X−Y+1, Z 2 = m a x ( 0 , H 2 ) Z_2=max(0,H_2) Z2=max(0,H2)
Z = − Z 1 − Z 2 + 1 = X x o r Y Z=-Z_1-Z_2+1=X xor Y Z=−Z1−Z2+1=XxorY
2.写出Sigmoid,tanh,relu的激活函数及对应导数
3.为什么Sigmoid和tanh函数会导致梯度消失?
由图像我们可知,当 z z z取很大或者很小时, f ′ ( z ) f'(z) f′(z)都趋近于0,出现梯度消失的现象。
S i g m o i d 和 t a n h Sigmoid和tanh Sigmoid和tanh函数都是饱和函数
右饱和:
当x趋向于正无穷时,函数的导数趋近于0,此时称为右饱和。
左饱和:
当x趋向于负无穷时,函数的导数趋近于0,此时称为左饱和。
饱和函数和非饱和函数:
当一个函数既满足右饱和,又满足左饱和,则称为饱和函数,否则称为非饱和函数。
S i g m o i d 和 t a n h Sigmoid和tanh Sigmoid和tanh函数比较:
对于隐藏层的激活函数来说,tanh函数要比sigmoid函数表现更好一些,因为tanh函数的取值范围在[-1,1]之间,隐藏层的输出被限定在[-1,1]之间,可以看成是在0值附近分布,均值为0。这样从隐藏层到输出层,数据起到了归一化的效果。
4.ReLU系列的激活函数相对于Sigmoid和Tanh函数的优点是什么,有什么局限性?如何改进?
优点:
- 从计算角度来说, S i g m o i d 和 t a n h Sigmoid和tanh Sigmoid和tanh激活函数均需要计算指数,复杂度高,而