从本章开始,我们将正式介绍神经网络。
为什么需要神经网络:手工提取特征→学习特征
在之前讲过的线性模型中,我们往往需要对原始数据做特征工程,把原始数据表示成线性模型喜欢的特征(即每个向量必须是数,并且语义信息清楚)。
神经网络或者或深度学习,是把我们手工特征提取的部分,换成了一个神经网络。此前我们使用人的知识对特征进行提取,现在则使用神经网络对特征进行提取,它提取出的特征可能对后面的线性归回或者softmax归回来讲更好一些。
优点:神经网络的好处在于我们人不需要再画脑筋去想怎么样提取特征。
缺点:神经网络需要的数据量和计算量大数个数量级的。
一般的神经网络架构:
- 多层感知机
- 卷积神经网络
- 循环神经网络
- Transformer网络
线性方法→多层感知机
多层感知机中最重要的是全连接层(fully connected layer)或叫稠密层(dence layer),这个层中包含可以学习的参数 W ∈ R m × n \mathbf{W} \in \R^{m\times n} W∈Rm×n, b ∈ R m b\in \R^{m} b∈R