深度学习
1 背景
模拟人的神经元模型,12年爆发
2 基础知识汇总
(23条消息) 深度学习基础知识(人工智能)_Java_rich的博客-CSDN博客
https://blog.csdn.net/Java_rich/article/details/120701484?utm_medium=distribute.pc_relevant_t0.593797&depth_1-utm_source=distribute.pc_relevant_t0.593797
3 深度学习框架
4 数据集
5 数据预处理
6 模型构建
6.1 常见模型结构
6.2 激活函数
6.3 其它
6.3.1 卷积
(1)卷积核大小
(2)步长
(3)填充
(4)卷积计算和参数量
(5)11卷积的作用
两个:
《1》特征融合
《2》改变通道数
(6)小卷积核33 的作用
《1》两个33起到77的作用,减少参数
《2》多用几次可以增加非线性变换
6.3.2 池化
最大最小池化,一般长宽是2,步长是2,没有参数
一般最大池化要比平均池化效果好
6.3.3 感受野
(5条消息) 深度学习原理14——感受野_xiaotiig的博客-CSDN博客
https://blog.csdn.net/xiaotiig/article/details/111256439
7 模型配置后向传播
7.1 损失函数
7.1.1 损失函数
损失函数要和模型对应,具体主要关注两个方面:
(1)输出用的激活函数,是sigmoid激活函数,还是softmax,还是没用激活函数,通常 categorical_crossentropy与 softmax激活函数搭配使用; binary_crossentropy 与 sigmoid搭配使用;
(2)真值是one_hot值还是标签值,损失函数带Sparse的对应于真值没有经过one_hot编码
(23条消息) keras在语义分割中loss实现二_爱CV-CSDN博客
https://icver.blog.csdn.net/article/details/113637174
Tensorflow & Keras的loss函数总结 - 简书
https://www.jianshu.com/p/b33b563a854b
(23条消息) tf.keras.losses.SparseCategoricalCrossentropy()与CategoricalCrossentropy()简单说明_github_39605284的博客-CSDN博客
https://blog.csdn.net/github_39605284/article/details/115841864
7.1.2 自定义损失函数
【1】(23条消息) focal loss的几种实现版本(Keras/Tensorflow)_随煜而安的专栏-CSDN博客
https://blog.csdn.net/u011583927/article/details/90716942?utm_medium=distribute.pc_relevant.none-task-blog-2%7Edefault%7EOPENSEARCH%7Edefault-6.no_search_link&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2%7Edefault%7EOPENSEARCH%7Edefault-6.no_search_link
【2】
7.2 优化器
8 训练
8.1 epoch
8.2 批次量
8.3 学习率
8.4 梯度消失和梯度爆炸
9 测试
9.1 评价指标
10 优化
10.1 样本优化
10.2 超参数优化
10.3 结构优化
(1)BN层:
1 BN是由Google于2015年提出,这是一个深度神经网络训练的技巧,它不仅可以加快了模型的收敛速度,而且更重要的是在一定程度缓解了深层网络中“梯度弥散(特征分布较散)”的问题,从而使得训练深层网络模型更加容易和稳定。所以目前BN已经成为几乎所有卷积神经网络的标配技巧了。
在BN出现之前,我们的归一化操作一般都在数据输入层,对输入的数据进行求均值以及求方差做归一化,但是BN的出现打破了这一个规定,我们可以在网络中任意一层进行归一化处理,因为我们现在所用的优化方法大多都是min-batch SGD,所以我们的归一化操作就成为Batch Normalization。
2 作用:
加快训练速度
可以省去dropout,L1, L2等正则化处理方法
提高模型训练精度
3 位置
BN可以作为神经网络的一层,放在激活函数(如Relu)之前。
4 训练时计算
5 预测也用到
对于预测阶段时所使用的均值和方差,其实也是来源于训练集。比如我们在模型训练时我们就记录下每个batch下的均值和方差,待训练完毕后,我们求整个训练样本的均值和方差期望值,作为我们进行预测时进行BN的的均值和方差
(2)dropout层: