文章目录
1. 网络结构定义:
使用列向量描述网络结构:
输入层:
X = [ x 1 , x 2 , . . . . . . , x m ] T X = [ x_1,x_2,. . . ... ,x_m]^T X=[x1,x2,......,xm]T
隐藏层:
H 1 = [ h 1 ( 1 ) , h 2 ( 1 ) , . . . . . . , h p ( 1 ) ] T H_1 = [h_1^{(1)},h_2^{(1)},......,h_p^{(1)}]^T H1=[h1(1),h2(1),......,hp(1)]T
H 2 = [ h 1 ( 2 ) , h 2 ( 2 ) , . . . . . . , h q ( 2 ) ] T H_2=[h_1^{(2)},h_2^{(2)},......,h_q^{(2)}]^T H2=[h1(2),h2(2),......,hq(2)]T
输出层:
Y = [ y 1 , y 2 , . . . . . . , y n ] T Y = [y_1,y_2,......,y_n]^T Y=[y1,y2,......,yn]T
2. 前向输出描述:
输入层到第一隐藏层:
o j = s i g m o i d ( ∑ i = 1 m w i j x i + b j ) , j ∈ [ 1 , p ] o_j=sigmoid(\sum_{i=1}^mw_{ij}x_i+b_j),j\in[1,p] oj=sigmoid(∑i=1mwijxi+bj),j∈[1,p]
第一隐藏层到第二隐藏层:
o k = s i g m o i d ( ∑ j = 1 p w j k o j + b k ) , k ∈ [ 1 , q ] o_k=sigmoid(\sum_{j=1}^pw_{jk}o_j+b_k),k\in[1,q] ok=sigmoid(∑j=1pwjkoj+bk),k∈[1,q]
从第二隐藏层到输出层:
o l = s i g m o i d ( ∑ k = 1 q w k l o k + b l ) , l ∈ [ 1 , n ] o_l = sigmoid(\sum_{k=1}^qw_{kl}o_k+b_l),l\in[1,n] ol=sigmoid(∑k=1qwklok+bl),l∈[1,n]
前向输出矩阵化描述:
上述过程可以使用矩阵乘法进行统一化:
假设第 I I I层有 i i i个节点、第 J J J层有 j j j个节点,那么有权值矩阵
W I J = [ w 11 w 12 . . . w 1 j w 21 w 22 . . . w 2 j . . . . . . . . . . . .