感性认识前馈神经网络
之所以加上“前馈”这个定语,是想特别强调,这样的网络是没有反馈的,也就是说==靠后的层次不会把输出反向连接到之前的层次上作为输入。==相比于综合交错的人类的大脑神经元的链接结构,这种结构做了极大简化。
- 对于任意复杂度的连续波莱尔可测函数 f f f,仅仅需要一个隐含层,只要这个隐含层包括足够多的神经元,前馈神经网络使用挤压函数(将较多的输出映射到一个较小的输出),就可以以任意精度来近似模拟 f f f。 f : R N → R M f:R^N \rarr R^M f:RN→RM
- 想要增加 f f f的近似精度,单纯依靠增加神经元数目即可实现。
- 单层神经元可以看做是一个超平面,通过调整 w 1 , w 2 w_1, w_2 w1,w2和 θ \theta θ的值可以来修正这个平面(修改 θ \theta θ可平移平面,修正 w 1 , w 2 w_1,w_2 w1,w2可旋转平面)。
- 增加一个神经元相当于增加了一个超平面,这样会划分不同的子空间。
- 当神经元纵向发展时,可以通过减少单层的神经元数量,而增加神经元网络的层数。
- 在该层神经元网络中可以完成非线性的映射和转换。增加了神经网络的层数,神经网络也增加了表达能力
分布式特征表达
神经网络的学习过程,就是通过训练数据调整神经元之间的链接权值以及每个功能神经元的输出阈值。
**什么是分布式表征?**就是当我们表达一个概念时,神经元和概念之间不是一对一对应映射(map)存储的,它们之间的关系是多对多的,具体而言,就是一个概念可以用多个神经元共同定义表达,同时一个神经元也可以参与多个不同概念的表达,只不过所占的权重不同罢了。
损失函数
(1)0-1损失函数(0-1 Loss Function)
L ( Y , f ( x ) ) = { 1 , Y ≠ e q u a l f ( x ) 0 , Y = f ( x ) L(Y, f(x))= \begin{cases} 1 , Y \not= equal f(x) \\ 0, Y = f(x) \end{cases} L(Y,f(x))={
1,Y=equalf(x)0,Y=f(x)
(2) 绝对值损失函数(Absolute Loss Function)
L ( Y , f ( X ) ) = ∣ Y − f ( X ) ∣ L(Y, f(X))=|Y- f(X)| L(Y,f(X))=∣Y−f(X)∣
(3)平方损失函数(Quadratic Loss Function):
L ( Y , f ( x ) ) = ( Y − f ( x ) ) 2 L(Y, f(x))=(