4.1、神经元
1、a=f(z),f为激活函数,f连续并可导(允许少数点上不可导)的非线性函数。可导的激活函数可以直接利用数值优化的方法来学习网络参数。激活函数及其导函数要尽可能的简单,有利于提高网络计算效率。激活函数的导函数的值域要在一个合适的区间内,不能太小也不能太大,否则会影响训练的效率和稳定性。
2、常用激活函数
3、S型函数
4、斜坡函数
5、复合函数
Swish函数:一种自门控激活函数
高斯误差线性单元(GELU)
6、常见激活函数及其导数
s型函数和斜坡函数
4.2、神经网络
1、人工神经网络主要由大量的神经元以及它们之间的有向连接构成。因此考虑三方面:神经元的激活规则,网络的拓朴结构,学习算法。
2、人工神经网络由神经元模型构成,这种由许多神经元组成的信息处理网络具有并行分布结构。
圆形节点表示一个神经元,方形节点表示一组神经元。
4.3、前馈神经网络
1、信息单向传递
2、前馈网络记号
3、通用近似定理
4、神经网络可以作为一个“万能”函数来使用,可以用来进行复杂的特征转换,或逼近一个复杂的条件分布。
4.4、反向传播算法
1、矩阵微积分是多元微积分的一种表达方式,即使用矩阵和向量来表示因变量每个成分关于自变量每个成分的偏导数。向量关于向量的偏导数是一个矩阵。
2、计算梯度。损失函数关于w的偏导数,损失函数关于b的偏导数
4.5、计算图与自动微分
1、自动微分是利用链式法则来自动计算一个复合函数的梯度。
2、反向传播算法(自动微分的反向模式)
前馈神经网络的训练过程可以分为以下三步:前向计算每一层的状态和激活值,直到最后一层;反向计算每一层的参数的偏导数;更新参数
3、静态计算图和动态计算图
静态计算图是在编译时构建计算图,计算图构建好之后在程序运行时不能改变。在构建时可以进行优化,并行能力强,但灵活性比较差。
动态计算图是在程序运行时动态构建。不容易优化,当不同输入的网络结构不一致时,难以并行计算,但是灵活性比较高。
4、深度学习的三个步骤
定义网络;损失函数;优化
4.6、优化问题
1、非凸优化问题
2、梯度消失问题
当深度很深时,梯度为0
3、优化问题