基于深度学习的自然语言处理——前馈神经网络
前馈神经网络
从现在开始,我们将进入真正的正题。前面的内容虽然基础,但是看了可能会有不同的感悟。
神经网络的由来
- 神经网络的灵感来源于大脑的计算机制。
- 具有正确权重、足够多的神经元和非线性激活函数的神经网络可以近似模拟广泛的数学函数。
- 每个神经元都连接下一层的所有神经元称之为完全连接层或仿射层。
数学表示
感知器(最简单的神经网络)
是一个简单的线性模型:
N N P e r c e p t r o n ( x ) = x W + b NN_{Perceptron}\left( x \right) = xW + b NNPerceptron(x)=xW+b
x ∈ R d i n ,    W ∈ R d i n × d o u t ,    b ∈ R d o u t x \in {R^{
{d_{in}}}},\;W \in {R^{
{d_{in}} \times {d_{out}}}},\;b \in {R^{
{d_{out}}}} x∈Rdin,W∈Rdin×dout,b∈Rdout
其中 W W W为权重矩阵, b b b为偏置项。
单隐层多层感知机(MLP1)
单隐层多层感知机的显示如下:
N N M L P 1 ( x ) = g ( x W 1 + b 1 ) W 2 + b 2 NN_{MLP1}\left( x \right) = g\left( {x{W^1} + {b^1}} \right){W^2} + {b^2} NNMLP1(x)=g(xW1+b1)W2+b2
x ∈ R d i n ,    W 1 ∈ R d i n × d 1 ,    b 1 ∈ R d 1 , W 2 ∈ R d 1 × d 2 , b 2 ∈ R d 2 x \in {R^{
{d_{in}}}},\;{W^1} \in {R^{
{d_{in}} \times {d_1}}},\;{b^1} \in {R^{
{d_1}}},{W^2} \in {R^{
{d_1} \times {d_2}}},{b^2} \in {R^{
{d_2}}} x∈Rdin,W1∈Rdin×d1,b1∈Rd1,W2∈Rd1×d2,b