8 神经网络:表达(Neural Networks: Representation)
8.1 非线性假设(Non-linear Hypotheses)
理论上我们可以用多项式函数去近似任意函数(泰勒极数(Taylor series)),从而可得到任意问题的拟合曲线。
在实际处理时,特征量通常会很多,如果再构造高阶多项式等,特征数量将会急剧增加,这使得回归模型的复杂度太高,可见并不合适。神经网络无需构造高阶多项式,在特征量很大时也可以处理的很好。
那特征能有多大呢?下面是一个计算机视觉中的例子:
如上图,如果选取一小块 50 ∗ 50 50 * 50 50∗50 像素的灰度图片(一个像素只有亮度一个值),选择每个像素点作为特征,则特征总量 n = 2500 n=2500 n=2500(换成 RGB(一个像素有三个值),则 n = 7500 n = 7500 n=7500),如果将其两两组合作为新特征,则特征数量将为 C 2500 2 ≈ 3 m i l l i o n C_{2500}^{2} \approx 3\ million C25002≈3 million。
8.2 神经网络和大脑(Neurons and the Brain)
脑科学家通过对动物实验,发现大脑中专用于处理听觉信号的脑皮层也能处理其他诸如视觉等信号,即如果切断其与耳朵的联系,将其与眼睛相连,则这块负责听觉的脑皮层区域也能接受并处理视觉信号,从而学会“看”。脑科学家通过这类换源实验,就推论假设大脑的学习算法只有一种(“one learning algorithm” hypothesis)。那么如果能找出这种学习算法并应用于计算机中,那梦想中和人一样的人工智能就成真了。
神经网络就源于模拟人类大脑,但其需要的计算量很大。随着计算机硬件性能的提高,神经网络逐渐从衰落变为流行,如今已广泛地被应用在各行各业中。
下图是根据研究做的一些应用(有兴趣可回顾视频):
BrainPort 系统:帮助失明人士通过摄像头以及舌尖感官“看”东西
触觉皮带:在朝北时蜂鸣器会发出声响,可使人拥有方向感(声音信号转换为方向信号)。
8.3 模型表示1(Model Representation I)
既然神经网络模仿的是大脑神经元,那就先看一下大脑的神经元长什么样吧:
想象一下印刷厂中流水线的工人(机器人也算哦),每个工人都有特定的任务,比如装订,塑封,贴防伪标识等等,工人们看到书本并处理完自己的任务后,就回放回传送带,紧接着传送带就传给下一个环节的工人,如此不断重复从而完成一个又一个环节,直到一本书印制完成。
那么类比一下,把上图中的**细胞核(nucleus)**类比成工人,**轴突(axon)**类比传送带,**树突(dendrite)**则比类比成工人的双眼。一个又一个细胞体,从树突接收需要处理的信息,对其进行处理后,再经由轴突通过电信号把处理完的信息传递出去,直到理解信息的内容。当然啦,我们大脑的实际上还要更为复杂,而且一个人的神经元数目就比地球上所有流水线的工人之和还要多呢~
人工神经网络中,树突对应输入(input),细胞核对应激活单元(activation unit),轴突对应输出(output)。
我们一般把神经网络划分为三部分(注意,不是只有三层!),即输入层(input layer),隐藏层(hidden layer)和输出层(output layer)。
图中的一个圈表示神经网络中的一个激活单元,输入层对应输入单元,隐藏层对应中间单元,输出层则对应输出单元。中间激活单元应用激活函数(activation_function)处理数据。
下面列出一些已有概念在神经网络中的别称:
- x 0 x_0 x0: 偏置单元(bias unit), x 0 x_0 x0=1
- Θ \Theta Θ: 权重(weight),即参数。
- 激活函数: g g g,即逻辑函数等。
- 输入层: 对应于训练集中的特征 x x x。
- 输出层: 对应于训练集中的结果 y y y。
a i ( j ) a^{(j)}_i ai(j): 第 j j j 层的第 i i i 个激活单元
Θ ( j ) \Theta^{(j)} Θ(j): 从第 j j j 层映射到第 j + 1 j+1 j+1 层时的权重矩阵。
Θ v , u ( j ) \Theta^{(j)}_{v,u} Θv,u(j): 从第 j j j 层的第 u u u 个单元映射到第 j + 1 j+1 j+1 层的第 v v v 个单元的权重
s j s_j sj: 第 j j j 层的激活单元数目(不包含偏置单元)
注意:
- 符号较多,记不住可随时回顾!
- 每个单元会作用于下一层的所有单元(矩阵乘法运算)。
- 如果第 j j j 层有 s j s_j sj 个单元,第 j + 1 j+1 j+1 层有 s j + 1 s_{j+1} sj+1 个单元, Θ ( j ) \Theta^{(j)} Θ(j) 是一个 s j + 1 × ( s j + 1 ) s_{j+1} \times (s_j+1) sj+1×(sj+1) 维的权重矩阵。即每一层的权重矩阵大小都是非固定的。
- 其中, + 1 +1 +1 来自于偏置单元,这样意味着输出层不包含偏置单元,输入层和隐藏层需要增加偏置单元。
依据本节所给模型,有:
S i z e ( Θ ( 1 ) ) = s j + 1 × ( s j + 1 ) = s 2 × ( s 1 + 1 ) = 3 × 4 Size(\Theta^{(1)})=s_{j+1} \times (s_j + 1) =s_2 \times (s_1 + 1) = 3 \times 4 Size(Θ(1))=sj+1×(sj+1)=s2×(s1+1)=3×4
S i z e ( Θ ( 2 ) ) = s 3 × ( s 2 + 1 ) = 1 × 4 Size(\Theta^{(2)})=s_3 \times (s_2 + 1) = 1 \times 4 Size(Θ(2))=s3×(s2+1)=1×4
8.4 模型表示2(Model Representation II)
对输入层(Layer 1)的所有激活单元应用激活函数,从而得到隐藏层(Layer 2)中激活单元的值:
a
1
(
2
)
=
g
(
Θ
10
(
1
)
x
0
+
Θ
11
(
1
)
x
1
+
Θ
12
(
1
)
x
2
+
Θ
13
(
1
)
x
3
)
a
2
(
2
)
=
g
(
Θ
20
(
1
)
x
0
+
Θ
21
(
1
)
x
1
+
Θ
22
(
1
)
x
2
+
Θ
23
(
1
)
x
3
)
a
3
(
2
)
=
g
(
Θ
30
(
1
)
x
0
+
Θ
31
(
1
)
x
1
+
Θ
32
(
1
)
x
2
+
Θ
33
(
1
)
x
3
)
\begin{align*} a_1^{(2)} = g(\Theta_{10}^{(1)}x_0 + \Theta_{11}^{(1)}x_1 + \Theta_{12}^{(1)}x_2 + \Theta_{13}^{(1)}x_3)\\ a_2^{(2)} = g(\Theta_{20}^{(1)}x_0 + \Theta_{21}^{(1)}x_1 + \Theta_{22}^{(1)}x_2 + \Theta_{23}^{(1)}x_3)\\ a_3^{(2)} = g(\Theta_{30}^{(1)}x_0 + \Theta_{31}^{(1)}x_1 + \Theta_{32}^{(1)}x_2 + \Theta_{33}^{(1)}x_3) \end{align*}
a1(2)=g(Θ10(1)x0+Θ11(1)x1+Θ12(1)x2+Θ13(1)x3)a2(2)=g(Θ20(1)x0+Θ21(1)x1+Θ22(1)x2+Θ23(1)x3)a3(2)=g(Θ30(1)x0+Θ31(1)x1+Θ32(1)x2+Θ33(1)x3)
对 Layer 2 中的所有激活单元应用激活函数,从而得到输出:
h Θ ( x ) = a 1 ( 3 ) = g ( Θ 10 ( 2 ) a 0 ( 2 ) + Θ 11 ( 2 ) a 1 ( 2 ) + Θ 12 ( 2 ) a 2 ( 2 ) + Θ 13 ( 2 ) a 3 ( 2 ) ) h_\Theta(x) = a_1^{(3)} = g(\Theta_{10}^{(2)}a_0^{(2)} + \Theta_{11}^{(2)}a_1^{(2)} + \Theta_{12}^{(2)}a_2^{(2)} + \Theta_{13}^{(2)}a_3^{(2)}) hΘ(x)=a1(3)=g(Θ10(2)a0(2)+Θ11(2)a1(2)+Θ12(2)a2(2)+Θ13(2)a3(2))
上面的计算过程被称为前向传播(Forward propagation),即从输入层开始,一层一层地向下计算并传递结果。
再回顾一下逻辑回归:
h θ ( x ) = g ( θ 0 + θ 1 x 1 + θ 2 x 2 + θ 3 x 3 ) {h_\theta}\left( x \right)=g\left( {\theta_0}+{\theta_1}{x_1}+{\theta_{2}}{x_{2}}+{\theta_{3}}x_3 \right) hθ(x)=g(θ0+θ1x1+θ2x2+θ3x3)
是不是除了符号表示,其他都完全一样?其实神经网络就好似回归模型,只不过输入变成了中间单元 a 1 ( j ) , a 2 ( j ) , … , a n ( j ) a_1^{(j)}, a_2^{(j)}, \dots, a_n^{(j)} a1(j),a2(j),…,an(j)。从输入 x x x 开始,下一层的每个激活单元都包含了上一层的所有信息(单元值),通过最优化算法不断迭代计算,激活单元能得出关于输入 x x x 的更多信息,这就好像是在给假设函数加多项式。隐藏层的这些单元好似升级版的初始特征,从而能给出更好的预测。
向量化实现
定义 a ( 1 ) = x = [ x 0 x 1 x 2 x 3 ] a^{(1)}=x=\left[ \begin{matrix}x_0\\ x_1 \\ x_2 \\ x_3 \end{matrix} \right] a(1)=x= x0x1x2x3 , Θ ( 1 ) = [ Θ 10 ( 1 ) Θ 11 ( 1 ) Θ 12 ( 1 ) Θ 13 ( 1 ) Θ 20 ( 1 ) Θ 21 ( 1 ) Θ 22 ( 1 ) Θ 23 ( 1 ) Θ 30 ( 1 ) Θ 31 ( 1 ) Θ 32 ( 1 ) Θ 33 ( 1 ) ] \Theta^{(1)}=\left[\begin{matrix}\Theta^{(1)}_{10}& \Theta^{(1)}_{11}& \Theta^{(1)}_{12}& \Theta^{(1)}_{13}\\ \Theta^{(1)}_{20}& \Theta^{(1)}_{21}& \Theta^{(1)}_{22}& \Theta^{(1)}_{23}\\ \Theta^{(1)}_{30}& \Theta^{(1)}_{31}& \Theta^{(1)}_{32} & \Theta^{(1)}_{33}\end{matrix}\right] Θ(1)= Θ10(1)Θ20(1)Θ30(1)Θ11(1)Θ21(1)Θ31(1)Θ12(1)Θ22(1)Θ32(1)Θ13(1)Θ23(1)Θ33(1) ,
KaTeX parse error: {align*} can be used only in display mode., z ( 2 ) = [ z 1 ( 2 ) z 1 ( 2 ) z 1 ( 2 ) ] z^{(2)}=\left[ \begin{matrix}z_1^{(2)}\\ z_1^{(2)} \\ z_1^{(2)}\end{matrix} \right] z(2)= z1(2)z1(2)z1(2)
则有 a ( 2 ) = g ( Θ ( 1 ) a ( 1 ) ) = g ( z ( 2 ) ) a^{(2)}= g(\Theta^{(1)}a^{(1)})=g(z^{(2)}) a(2)=g(Θ(1)a(1))=g(z(2))
预测结果即 h Θ ( x ) = a ( 3 ) = g ( Θ ( 2 ) a ( 2 ) ) = g ( z ( 3 ) ) h_\Theta(x) = a^{(3)} = g(\Theta^{(2)}a^{(2)}) = g(z^{(3)}) hΘ(x)=a(3)=g(Θ(2)a(2))=g(z(3))
即有 z i ( j ) = Θ i , 0 ( j − 1 ) a 0 ( j − 1 ) + Θ i , 1 ( j − 1 ) a 1 ( j − 1 ) + ⋯ + Θ i , n ( j − 1 ) a n ( j − 1 ) z^{(j)}_i = \Theta^{(j-1)}_{i,0}a^{(j-1)}_{0}+ \Theta^{(j-1)}_{i,1}a^{(j-1)}_{1}+\dots+ \Theta^{(j-1)}_{i,n}a^{(j-1)}_{n} zi(j)=Θi,0(j−1)a0(j−1)+Θi,1(j−1)a1(j−1)+⋯+Θi,n(j−1)an(j−1),
z ( j ) = Θ ( j − 1 ) a ( j − 1 ) z^{(j)} = \Theta^{(j-1)}a^{(j-1)} z(j)=Θ(j−1)a(j−1), a ( j ) = g ( z ( j ) ) a^{(j)} = g(z^{(j)}) a(j)=g(z(j)),通过该式即可计算神经网络中每一层的值。
扩展到所有样本实例:
z ( 2 ) = Θ ( 1 ) X T {{z}^{\left( 2 \right)}}={{\Theta }^{\left( 1 \right)}} {{X}^{T}} z(2)=Θ(1)XT,这时 z ( 2 ) z^{(2)} z(2) 是一个 s 2 × m s_2 \times m s2×m 维矩阵。
m m m: 训练集中的样本实例数量
s 2 s_2 s2: 第二层神经网络中激活单元的数量
当然,神经网络可有多层,每层的激活单元数量也并不固定:
我们习惯于将输入层称为神经网络的第 0 层,如上图的神经网络被称为三层网络。
8.5 例子和直观理解1(Examples and Intuitions I)
为了更好的理解神经网络,举例单层神经网络进行逻辑运算的例子。
下面的例子中, x 1 , x 2 x_1,x_2 x1,x2 为二进制数。
逻辑与(AND)运算(都为真值则结果才为真)神经网络:
Θ ( 1 ) = [ − 30 20 20 ] \Theta^{(1)} =\begin{bmatrix}-30 & 20 & 20\end{bmatrix} Θ(1)=[−302020], h Θ ( x ) = g ( − 30 + 20 x 1 + 20 x 2 ) h_\Theta(x) = g(-30+20x_1+20x_2) hΘ(x)=g(−30+20x1+20x2)。
回顾 sigmoid 函数图像,根据输入则有上图中右边的表格,即 h θ ( x ) ≈ x 1 AND x 2 h_\theta(x)\approx x_1\ \text{AND}\ x_2 hθ(x)≈x1 AND x2。这样就实现了一个能够进行与运算的神经网络。
再举一例,逻辑或(OR)运算(有一个真值则结果就为真)神经网络:
8.6 例子和直观理解2(Examples and Intuitions II)
下面逐步构建复杂一点的神经网络
如上图,我们分别构建了三个单层神经网络,将这三个网络组合起来,可得到一个新的神经网络,其可完成逻辑运算中的异或(XNOR)操作:
这里的组合即为 XNOR = ( x 1 AND x 2 ) OR ( ( NOT x 1 ) AND ( NOT x 2 ) ) \text{XNOR}=( \text{x}_1\, \text{AND}\, \text{x}_2 )\, \text{OR} \left( \left( \text{NOT}\, \text{x}_1 \right) \text{AND} \left( \text{NOT}\, \text{x}_2 \right) \right) XNOR=(x1ANDx2)OR((NOTx1)AND(NOTx2))
Θ ( 1 ) = [ − 30 20 20 10 − 20 − 20 ] \Theta^{(1)} =\begin{bmatrix}-30 & 20 & 20 \newline 10 & -20 & -20\end{bmatrix} Θ(1)=[−301020−2020−20], Θ ( 2 ) = [ − 10 20 20 ] \Theta^{(2)} =\begin{bmatrix}-10 & 20 & 20\end{bmatrix} Θ(2)=[−102020],KaTeX parse error: {align*} can be used only in display mode.
可见,特征值能不断升级,并抽取出更多信息,直到计算出结果。而如此不断组合,我们就可以逐渐构造出越来越复杂、强大的神经网络,比如用于手写识别的神经网络。
8.7 多类别分类(Multiclass Classification)
之前讨论的都是预测结果为单值情况下的神经网络,要实现多类别分类,其实只要修改一下输出层,让输出层包含多个输出单元即可。
举一个 4 分类问题的实例:
有四种分类情况,那么就让输出层包含 4 个输出单元即可,则 h Θ h_\Theta hΘ 为 4 维向量。
神经网络中的多分类算法算是对 one-vs-all 思想的扩展,定义预测结果一共有 4 种情况:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-JM4bTIfD-1682336592733)(images/20180117_011331.png)]
如果预测结果 h Θ ( x ) = [ 0 0 1 0 ] h_\Theta(x) =\begin{bmatrix}0 \newline 0 \newline 1 \newline 0 \newline\end{bmatrix} hΘ(x)= 0010 ,那么表示 h Θ ( x ) 3 h_\Theta(x)_3 hΘ(x)3,即分为第 3 类,对应于图中的摩托车(Motorcycle)。
总结一下
多分类问题,要分为 K K K 类,就在输出层放置 K K K 个输出单元,对于单个样本实例,预测向量 h Θ ( x ) h_\Theta(x) hΘ(x) 为 K K K 维向量,我们则依据这个预测向量,得出该实例属于哪个类 y ( i ) y^{(i)} y(i)。注意,神经网络中的预测和结果都是 K K K 维向量,而不再只是一个实数了。