第二周：自然语言处理与词嵌入

最新推荐文章于 2024-04-12 14:00:00 发布

SuperFeHanHan

最新推荐文章于 2024-04-12 14:00:00 发布

阅读量312

点赞数

分类专栏：序列模型(Andrew Ng) 文章标签：自然语言处理深度学习人工智能

本文链接：https://blog.csdn.net/weixin_44495738/article/details/107896284

版权

序列模型(Andrew Ng) 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第二周：自然语言处理与词嵌入

2.1 词汇特征(Word Representation)
- 词嵌入 Word Embedding
- t-SNE
2.2 使用词嵌入
2.3 词嵌入的特性
2.4 Embedding Matrix(嵌入矩阵)
2.5 实现词嵌入
- 方法一：Neural language model
2.6 方法二：Word2Vec
2.7 负采样 (Negative Sampling)
- 怎么选择负样本？
2.8 GloVe词向量 (Global Vectors for word representation)
2.9 情绪分类
- 一种可能的架构
- 改进：
2.10 词嵌入除偏
第二周测试重点:
课程中提到的一些论文：

本文是序列模型的笔记

2.1 词汇特征(Word Representation)

Recap：
我们之前使用了字典+One-Hot表示。
因为任意两个One-hot向量的内积为0，所以模型泛化能力比较差。不能通过已有的信息根据类别进行类推。

词嵌入 Word Embedding

我们定义几个特征，用来表示这些词汇。例如

Feature	Man	Women	King	Queen	Apple	Oranges
Gender	-1	1	-0.95	0.97	0.00	0.01
Royal	0.01	0.02	0.93	0.95	-0.01	0.00
Age	0.03	0.02	-0.95	0.97	0.03	-0.02
Food	0.09	0.01	-0.95	0.97	0.95	0.97

这样每一列就可以用来表示这个词，并且比较好地保留了相似的信息。

t-SNE

可以将上面的向量降维到2维，从而可以进行可视化。
【图片】

2.2 使用词嵌入

Name entity例子

(1) Sally is an orange farmer.
(2) Robert is a durian cultivator.
如果我们通过训练知道了句子(1)，这样如果通过词嵌入直到orange和durian，farmer和cultivator属于同一类。所以我们可以推出Robet也是一个人。

我们可以通过无监督学习分出各种文字的类别，然后再进行迁移学习。

步骤：

训练或者下载根据大型语料库训练的一个词嵌入的模型，目的是可以对每个词都得到一个紧凑的向量，用来代替之前稀疏的one-hot向量。
我们对这个模型进行迁移（因为我们的任务可能数据比较少），迁移到我们小的数据集上。

Rq:
这些对于数据比较少的时候采用迁移学习。

词向量和人脸识别的关系

例如我们之前在Face Recognition里面为了得到一个人的面部特征，使用的Face Encoding和这里的Words Embedding的含义类似。

2.3 词嵌入的特性

例子：

在这里插入图片描述

问题：如果 Man 对应 Women，那么 King 对应什么？
Sol:
我们可以发现
$e_{man}-e_{women}=\begin{bmatrix} -2\\ -0.01\\ 0.01\\ 0.08 \end{bmatrix} \approx e_{king}-e_{queen}$
所以一般来说，为了回答这个问题，我们就需要解这个向量“方程”：
$e_{man}-e_{women}\approx e_{king}-e_?$
换言之，我们想要找到 $w_i$ 使得
$armmax_{w}(sim(e_?,e_{man}-e_{women}-e_{king}))$
$s i m (v e c t 1, v e c t 2)$ 是一个用来衡量两个向量像素的函数。

常见的 $s i m (v e c t 1, v e c t 2)$

Cosine similarity

$sim(u,v)=\frac{u^Tv}{||u||_2,||v||_2}$

Distance（用来描述相异程度）

$u-v||_2^2$

2.4 Embedding Matrix(嵌入矩阵)

在训练word embedding的时候我们实际上训练的是一个Embedding Matrix。

【图片，说明什么是Embedding Matrix和它与One-Hot之间的关系。】

$EmbeddingMatrix \times OneHot = 对应元素的Embedding$
Rq: 实际上我们不会这样做，因为OneHot向量里面有太多的0了。

2.5 实现词嵌入

我们应该是希望学会一个词语（Content）到目标(Target)之间的映射。

方法一：Neural language model

这里不是前面的RNN网络，而是采用嵌入词向量+SoftMax输出
在这里插入图片描述
Rq:

利用一个历史窗口，输入4个词预测下一个，然后再让窗口移动。（目的是给出一个Context）
我们对矩阵E进行更新。这样系数会逐渐调整，直到把同类的事物合并在一起。
如果想要构建一个语言模型，我们需要用目标词的前几个单词作为上下文（Context），但如果是为了学习词嵌入，我们可以尝试其他的方法（目标词前面4个词语、前后各4个词语、最近的一个词等等。）

2.6 方法二：Word2Vec

Skip-grams

可以随机的选择句子中的一个单词作为上下文词。例如选择orange作为上下文单词，然后随机在一定词距内选定另一个词，在上下文单词前后的五到十个单词随机选择目标词

随机选取一个词作为Context，在这个前后一定范围内随机选一个作为Target。

在这里插入图片描述

Skip-grams Model

我们想从一个Context学习预测一个Target t。

一个例子

假设：我们研究一个Content为"Orange"，Target为"Juice"的映射。
记号：
- 在词典中"Orange" 的位置为第6257，记其OneHot向量为 $O_c$
- 在词典中"Juice" 的位置为第4834，记其OneHot向量为 $O_t$
- 记词嵌入矩阵为E，"Orange"的嵌入词向量为 $e_c$ ,“Juice”的嵌入词向量为 $e_t$ 。
- 由2.4的内容我们可知 $e_c=E\times O_c,e_t=E\times O_t$
模型的具体步骤：
- 将词嵌入向量输入到一个SoftMax单元里面。（对于SoftMax单元，把我们选的内容词Content看成是Context，然后在已知“上下文”的情况下计算目标词出现的概率）
- 记 $\theta_t$ 为一个与输出 $t$ 有关的参数，即表示和标签 $t$ 相符的概率 $\mathbb{P}(target|content)=\frac{e^{\theta_t^Te_c}}{\sum_{j=1}^{10,000}e^{\theta_j^Te_c}} \text{ for } \forall \text{ target } \in 词典$
- 因此我们得到一个由这些条件概率 $\mathbb{P}(target|content)$ 所组合成的预测值向量 $\hat{y}$ 。然后我们采用交叉熵损失函数 $L(\hat{y},y)=-\sum_{i=1}^{10,002}y_ilog(\hat{y_i})$ 其中 $\hat{y}_i=\mathbb{P}(target_i|content)$ ，而因为我们这个例子中的Value为第4834位的"Juice"，所以 $y_i=\begin{cases} 1 & \text{ if } i= 4834 \\ 0 & \text{ sinon } \end{cases}$

Rq:

我们忽略了SoftMax里面的偏置项。
因为最后正确的Target是众多词语中的一个，所以我们使用SoftMax损失函数。

缺点：

计算时间长，因为要遍历整个例子来计算SoftMax。 $p(t|c)=\frac{e^{\theta_t^Te_c}}{\sum_{j=1}^{10,000}e^{\theta_j^Te_c}}$
- Sol: Hierarchical SoftMax Classifier（分级SoftMax分类器，用来加速SoftMax）
  - 采用二分的思想，先训练一个二分类器(Logistic)告诉你是属于前5000还是后5000然后再不断2分下去，通过logN的时间复杂度得到最后的类别。
  - 为了节省查找的时间和计算资源，将常见词汇构造在查找树的靠近根部的节点，而不常见的词汇则构造在查找树更深的节点上。
问题：怎么对Context采样？因为一般来说句子中the,a等比较多，容易被选为Context。
Sol：通过一些启发式算法。

Rq:

这就是本节介绍的Word2Vec中的skip-gram模型，在参考文献提及的论文原文中，实际上提到了两个不同版本的Word2Vec模型， skip-gram 只是其中之一。还有另外一个模型称为CBOW–连续词袋模型。
CBOW–连续词袋模型：获得中间词两边的上下文，然后用周围的词来预测中间的词，这个模型也十分的有效也有其优点和缺点。

2.7 负采样 (Negative Sampling)

改善过的学习问题，改善了运算效率

目的：
判断一个Context和Word对，如果是一对，则输出为1，否则为0。
如 Orange Juice为1，Orange King为0。

步骤：

选取同一个Context词语，再从字典中选取 $k$ 个随机的词，并把这些词作为负样本。（一般k = 5 - 20，数据集越小k越大。）
这些随机取的词语即便出现在了Context前后10个范围里也不要紧。
构建一个有监督的模型，输入x为Context - word对，输出是否为target。
对于每一个Context - word对，我们的输出都是0或者1，表示这两者之间是否构成Context -> Target 的映射关系。（对于Context Target的判断可以用Target是否在Context的一定范围内）
鉴于我们的输出是0或1，我们可以用Sigmoid函数来描述这一个过程：
$\mathbb{P}(y=1 | c,t) =\sigma (\theta_t^T e_c)$
具体来说：

Rq:
对比之前的SoftMax每一次都需要计算10,000个样本。这里我们只需要更新k+1个Logistic单元（k个负样本+1个正样本），因此这样速度更快。

怎么选择负样本？

如果直接按照出现频率+均匀分布来，则一些词如end出现的次数会比较多。因此作者采用了如下的采样方法计算某一个词 $w_i$ 出现的概率，然后按照这个概率进行采样：
$\mathbb{P}(w_i)=\frac{f(w_i)^{\frac{3}{4}}}{\sum_{j=1}^{10,000}f(w_j)^{\frac{3}{4}}}$

2.8 GloVe词向量 (Global Vectors for word representation)

记 $X_{i,j}$ 为Target i出现在Content j的Context里的次数。
- 如果Context定义为左右各10个词语，则一般来说我们有 $X_{i,j}=X_{j,i}$
- $X_{i,j}$ 可以表示两者同时出现的频率

目的:

Minimize $\sum_{i=1}^{10,000}\sum_{j=1}^{10,000} f(X_{i,j})(\theta_i^Te_j+b_i+b'_j-log(X_{i,j}))^2$

Rq:

可以把这里的 $\theta_i^Te_j$ 想象成一个测量 $\theta_i$ 和 $e_j$ 相似程度的指标，如果 $X_{i,j}$ 次数多，则他们两个应该越相似。
Target i，Content j。
$f(X_{i,j})$ 是为了防止 $X_{i,j}$ 为0，即 $f(X_{i,j})=0 \text{ if } X_{i,j}=0$ 。此外 $f(X_{i,j})$ 也可以用来调整权重：减少对于this等常见的停用词的权重，增大 $d u r i o n$ 这种不太常见的词的权重。
这里如果Context为Content前后10个词语的话，这里的 $\theta_i$ 和 $e_j$ 是对称的。所以我们可以最后取平均得到词向量 $e_{w}^{(final)}=\frac{e_w+\theta_w}{2}$
最后得到的词向量有可能是很多因素混在一起的结果，因此不一定具有良好的解释性。

2.9 情绪分类

目的：
输入一句话，输出一个分数（1星到5星）

问题：
训练集数据少。

Sol：
使用词向量，我们可以对一个大一点的语料库使用Neural Language Model或者Word2Vec 或者GloVe得到一个嵌入矩阵E，这样通过调用这个训练好的模型我们就可以对任意词语输出一个词向量。

一种可能的架构

在这里插入图片描述

Rq：

用SoftMax输出一个1-5分的评价。

问题：

没有考虑词序，会在一个重复出现good的评分上翻车。

改进：

在这里插入图片描述

2.10 词嵌入除偏

我们发现一些模型会反应一些偏见：
Man is to computer programmer as woman is to homework
鉴于深度学习模型会做比较重要的决策，所以需要去除这个偏见。

假设我们已经训练了一个嵌入词向量(Content -> Target)的模型，假设我们想要去除性别的偏见。

我们可以通过 $e_{he}-e_{she}$ , $e_{male}-e_{female}$ 相加取平均的方法确定一个Bias Direction，然后我们可以引入一个和Bias Direction垂直的299维的空间(Hyperspace)。这里假定我们的词向量是300维的。【其实也可以使用奇异值分解或者PCA降维等方法得到】
对于每一个希望中立的词语(如doctor等等)，我们减去这个Bias。（但是Mother这种不减）
Equalize Pairs。例如我们希望girl和boy之间唯一的区别是性别，即想办法让他们到299维度的Hyperspace的距离相同。(这样他们到Babysitter的距离就相同了。)

最后，我们可以训练一个Classifiers来找到一些我们想要去除性别偏见的词语。
在这里插入图片描述

第二周测试重点:

t-SNE是一种非线性降维算法。
对于词嵌入而言，这些方程是成立的:
$e_{boy}-e_{girl} \approx e_{brother}-e_{sister}$

$e_{boy}-e_{brother} \approx e_{girl}-e_{sister}$

word2vec模型：
$\mathbb{P}(t|c)=\frac{e^{\theta_t^Te_c}}{\sum_{i=1}^{10,000}e^{\theta_i^T e_c}}$
假如我们需要训练一个500维的词嵌入，则 $\theta_t$ 和 $e_c$ 都是500维的向量。 $\theta_t$ 与 $e_c$ 都是通过Adam或梯度下降等优化算法进行训练的。
GloVe模型：
$\sum_{i=1}^{10,000}\sum_{j=1}^{10,00} f(X_{ij})(\theta_i^Te_j+b_i+b'_j-log(X_{ij}))^2$
$\theta_i$ 与 $e_j$ 应当使用随机数进行初始化， $X_{ij}$ 是单词i在Content j的Context中的次数。函数f要满足： $f (0) = 0$ 。

课程中提到的一些论文：

Linguistic regularities in continuous space word representations
A neural probabilistic language model
Efficient estimation of word representations in vector space
Distributed representation of words and phrases and their compositionally
Global Vectors for word representation
Man is to computer programmer as woman is to homework

SuperFeHanHan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第二周：自然语言处理与词嵌入

第二周：自然语言处理与词嵌入2.1 词汇特征(Word Representation)词嵌入 Word Embeddingt-SNE2.2 使用词嵌入Name entity例子步骤：词向量和人脸识别的关系2.3 词嵌入的特性例子：常见的sim(vect1,vect2)sim(vect1,vect2)sim(vect1,vect2)Cosine similarityDistance（用来描述相异程度）2.4 Embedding Matrix(嵌入矩阵)2.5 实现词嵌入方法一：Neural language
复制链接

扫一扫