1. LSTM中各模块分别使用什么激活函数,可以使用别的激活函数码?
2. Seq2Seq在解码时,有哪些常用的方法?
3.Seq2Seq加入注意力机制是为了解决什么问题?为什么选用双向循环网络?
假设编码器的输出为C,编码器第一时刻输出为
y
1
=
f
(
C
)
y_1=f(C)
y1=f(C),第二时刻输出为
y
2
=
f
(
C
,
y
1
)
y_2=f(C,y_1)
y2=f(C,y1),可以看出无论生成什么单词时,输入序列的语义编码贡献都是相同的,即无论生成哪个单词,输入单词
x
i
x_i
xi贡献都是相同的,没有着重点,很明显不太合理。
没有引入注意力模型在输入句子比较短时问题还不大,中间的语义向量还能很好的学习到输入单词的信息。但是当序列变长后,中间语义向量会丢失掉很多细节信息,这也是为什么要引入注意力的原因。
1、什么是池化?
我们之所以使用卷积后的特征,是因为图像具有“静态型”的属性,也就意味着在一个图像区域的特征极有可能在另一个区域同样适用。所以,当我们描述一个大的图像的时候就可以对不同位置的特征进行聚合统计(例如:可以计算图像一个区域上的某个特定特征的平均值 or 最大值)这种统计方式不仅可以降低纬度,还不容易过拟合。这种聚合统计的操作就称之为池化,或平均池化、最大池化。
2. 池化作用
- 保留主要特征的同时减少参数(降低纬度,类似PCA)和计算量,防止过拟合
- 平移不变性
pooling不断地提取区域的特征而不关心具体的位置,所以在一定程度上增加了平移不变性 - 增大感受野
pooling之后的结果一个点表示输入的一个区域,看得比较广
3. 过拟合
- 什么是过拟合?
随着模型的训练,模型在训练集上的loss持续下降,但是在验证集上刚开始下降,但是之后又上升,这个时候就说明模型发生了过拟合。 - 为什么会产生过拟合?
从数据的角度:样本数据可能过少;样本数据噪声比较大
从模型的角度:模型的参数过多,模型过于复杂 - 怎么解决过拟合?
L1、L2正则化;early stopping;Dropout;
4.向量机复习
- 凸优化定义
凸优化笔记(1)Why凸优化以及几个基本概念 - slater条件
slater条件官方正规定义:存在x,使得不等式约束g(x)<=0严格成立。
slater条件性质: slater条件是原问题P可以等价于对偶问题Q的一个充分条件,该条件确保了鞍点的存在。