词向量II:GloVe、评估和训练
关键词:全局向量词表示 (GloVe)、内在和外在评估、超参数对类比评估任务的影响、人类判断与词向量距离的相关性、 使用上下文处理单词中的歧义、窗口分类。
本文上一部分请见:CS224n: Natural Language Processing with Deep Learning 笔记、文献及知识点整理(四)词向量(四)_放肆荒原的博客-CSDN博客
3. 外部任务训练
到目前为止,我们一直关注内在任务,并强调它们在开发良好的单词嵌入技术中的重要性。不过大多数现实问题是将结果词向量用于一些外部任务。我们先来看看处理外部任务的一般方法。
3.1 问题表述
图5:可以使用简单的线性决策边界对词向量进行分类
如图所示(二维词向量),使用逻辑回归和支持向量机等技术
大多数 NLP 外在任务可以表述为分类任务。 例如,给定一个句子,我们可以将句子分类为积极、消极或中性情绪。 类似地,在命名实体识别 (NER) 中,给定上下文和中心词,我们希望将中心词分类为许多类别之一。 对于输入“Jim 在 2006 年购买了 Acme Corp. 的 300 股”,我们希望分类输出“[Jim]Person 在 [2006]Time 年购买了 [Acme Corp.]Organization 的 300 股”。
对于此类问题,我们通常从以下形式的训练集开始:
其中,是通过某种单词嵌入技术生成的d维单词向量,