1:极大似然估计是什么?
https://zhuanlan.zhihu.com/p/26614750 极大似然的简单理解
https://zhuanlan.zhihu.com/p/34711589 极大似然和交叉熵之间的联系(没看完)
https://zhuanlan.zhihu.com/p/35646059
2:什么是逻辑回归?
https://blog.csdn.net/nature_XD/article/details/63268758
线性回归的特殊情况,引入sigmoid函数,处理0、1分类问题。
二:复习 2.改善深层神经网络:超参数调试、正则化以及优化
1:交叉验证
什么是交叉验证法?
它的基本思想就是将原始数据(dataset)进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。
为什么用交叉验证法?
- 交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。
- 还可以从有限的数据中获取尽可能多的有效信息。
https://blog.csdn.net/aliceyangxi1987/article/details/73532651
2:最优误差 贝叶斯误差
固有误差,当前的数据在发挥了极致水平下的误差,是当前数据的固有属性。
https://blog.csdn.net/cs123951/article/details/69951894?locationNum=2&fps=1
++3:L1、L2正则化区别(原理没弄明白)
- L1正则化是指权值向量ww中各个元素的绝对值之和,通常表示为||w||1||w||1
- L2正则化是指权值向量ww中各个元素的平方和然后再求平方根(可以看到Ridge回归的L2正则化项有平方符号),通常表示为||w||2
- L1正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择
- L2正则化可以防止模型过拟合(overfitting);一定程度上,L1也可以防止过拟合
https://zhuanlan.zhihu.com/p/35356992
4:F范数
就是L2范数
范数:https://blog.csdn.net/Michael__Corleone/article/details/75213123
5:为什么正则化项为λ/2?
仅为了后面计算方便
https://zhuanlan.zhihu.com/p/34883499
6:正交化思想
出现在第二周1.8 early stop 方法中
7:非结构化数据如何归一化?
- 最值归一化。比如把最大值归一化成1,最小值归一化成-1;或把最大值归一化成1,最小值归一化成0。适用于本来就分布在有限范围内的数据。
- 均值方差归一化,一般是把均值归一化成0,方差归一化成1。适用于分布没有明显边界的情况,受outlier影响也较小。
8:动量在梯度下降和物理之间的联系。
https://blog.csdn.net/yinruiyang94/article/details/77944338
感觉和惯性差不多
++9:RMSprop和Adam方法中V_dw和S_dw,分别代表了什么,有什么区别?
10:对数的数学特性
由乘变加,log scale采样。。。
11:batch normalization 隐层间数据归一化后如何还原?
12:协变量
cov
13:softmax中e^x的数学原理?
三:复习04卷积神经网络
1:cnn最后将特征图reshape成向量送入FC层,具体是怎么排列的?
2:2.6Inception网络中计算量大小的计算。
计算都是乘法次数,e.g.数据维数28*28*192乘以卷积后的维数28*28*32,最后等于卷积乘法的次数。
3:目标定位中的分类损失函数使用对数似然损失函数。
对数似然损失函数好像就是交叉熵。https://blog.csdn.net/bitcarmanlee/article/details/51165444
4:YOLO目标跨各自怎么办?
b_h,b_w可以大于1
5.3.7非极大抑制中已由最高P_c抑制了其他高IoU后为什么要找次高P_c再次抑制?
不是已经求得目标所在位置了吗?
6:4.5面部验证与二分类中网络输出的激活函数不明白。
和卡方分布有什么关系?代表了什么意义?
7:4.10风格损失函数中风格如何定义的?
为什么隐层间不同通道间的激活函数的乘积可以表示相关性,可以表示风格?