Details of the softmax
把给定输入x时的输出为y的概率计算分成两步:
交叉熵:
p为真实概率,是独热向量,q为模型计算出的概率,则交叉熵为:
词窗口分类
四分类命名实体识别
训练一个softmax分类器,给中心词分配一个标签,然后用一个窗口把它前后的单词连接起来。
如:定义窗口长度为2,即中心词左右两边各有2个单词
本讲中的向量均指的是列向量,但是在所有编程框架中它们最开始是行向量,因为行向量在低层次优化的速度更快。
如何更新词向量:
1)仔细定义所有向量并记住它们的维度。
2)链式法则
最大间距损失函数
训练目标:让正确窗口的得分更高,让错误窗口的得分更低,直到它们足够好为止。
足够好:差值为1,
设法增大训练数据集的最近点之间的间距
如何确保不陷入局部最优:
不停地随机更新使得很难陷入随机最优,窗口越小,随机性越大,每次更新时,看到的窗口越少,陷入局部最优的可能性越小。
第五讲 反向传播和项目建议
反向传播:
Hadamard乘积:
项目建议:
-
定义问题
-
找数据集
可以搜索现有的学术数据集,也可以自己建数据集 -
定义自己的评价指标
如F1,数据不平衡时可用
如BLUE’s 的n元交叠:衡量要测试的文本和人类生成的总结文本中有多少n元组正确交叠的方法,机器翻译时可用
ROUGE是NLP的许多不同子领域使用的对总结的正确衡量指标
- 分割数据集
保证测试集与训练集无重叠
- 建立一个基准模型