从零实现Word2Vec(上)

愤怒的可乐

已于 2022-04-27 23:15:07 修改

阅读量875

点赞数 6

分类专栏：人工智能读书笔记自然语言处理文章标签：自然语言处理深度学习 word2vec word2vec背后的数学原理

于 2020-09-03 19:36:57 首次发布

本文链接：https://blog.csdn.net/yjw123456/article/details/108389637

版权

读书笔记同时被 3 个专栏收录

170 篇文章 30 订阅

订阅专栏

人工智能

162 篇文章 76 订阅

订阅专栏

自然语言处理

85 篇文章 110 订阅

订阅专栏

引言

本文是对近日学习word2vec的一个总结，期间看了不少博客和论文。

word2vec是一种高效的训练词向量的模型，基于上下文相似的两个词,它们的词向量也应该相似, 比如，“A dog is running in the room"和"A cat is running in the room”。这两个句子，只是"cat"和"dog"不同，word2vec认为它们是相似的，而n-gram模型做不到这一点。

word2vec有两个模型：CBOW(COntinuous Bag of Words)和Skip-Gram。

在这里插入图片描述

CBOW模型中，通过一个上下文(比如说一个句子)来预测目标词；而Skip-Gram模型则相反，根据给定的输入词来预测上下文。

Skip-Gram：能够很好地处理少量的训练数据，而且能够很好地表示不常见的单词或短语
CBOW：比skip-gram训练快几倍，对出现频率高的单词的准确度稍微更好一些

Simple CBOW模型

要想理解CBOW和SkipGram模型，我们先从最简单版本的CBOW模型开始介绍，又被称为One Word模型，上下文只有一个单词，目标词也是一个单词。
意味着给定一个上下文词来预测一个目标词。有点类似bigram模型。

[Simple CBOW模型的图片]

在上图中 $V$ 是词典大小, $N$ 是一个超参数，是隐藏层中单元数量，也是我们要学的词向量的维度，一般最多设置到300。

输入向量 $x$ 是 $\times 1$ 的one-hot向量，只有 $\color{red}{ x_k=1}$ ，其他都是 $0$ 。

输入层和输出层之间的权重是一个 $\times N$ 的矩阵 $W$ ，给定一个上下文单词，隐藏层 $h$ 计算如下：

$W^T x = W_{(k,\cdot)}^T := v_{w_I}^T \tag{1}$

$W$ 是 $\times N$ 。 $h$ 的维度是 $\times 1$

这个公式详细描述一下，展开上面的 $W$ 矩阵：

$W_{V \times N} = \left[ \begin{matrix} w_{11} & w_{12} & \cdots & w_{1N} \\ w_{21} & w_{22} & \cdots & w_{2N} \\ \vdots & \vdots & \ddots & \vdots \\ w_{V1} & w_{V2} & \cdots & w_{VN} \end{matrix} \right]$

$x$ ：

$\left[ \begin{matrix} x_1 \\ x_2 \\ \vdots \\ x_V \end{matrix} \right]$

$W^T x = \left[ \begin{matrix} w_{11} & w_{21} & \cdots & w_{k1} \cdots & w_{V1} \\ w_{12} & w_{22} & \cdots & w_{k2} \cdots & w_{V2} \\ \vdots & \vdots & \ddots & \vdots & \vdots \\ w_{1N} & w_{2N} & \cdots & w_{kN} \cdots & w_{VN} \end{matrix} \right]_{N \times V} \left[ \begin{matrix} x_1 \\ x_2 \\ \vdots \\ x_k \\ \vdots \\ x_V \end{matrix} \right] = \left[ \begin{matrix} w_{k1} \\ w_{k2} \\ \vdots \\ w_{kN} \end{matrix} \right] \\$

$W$ 的第 $i$ 行用 $v_w$ 表示，相当于是 $w$ 的词向量，是 $\times N$ 的。

$W^T x$ 得到 $\times 1$ 的列向量(注意这里是 $W$ 的转置， $W^T$ 的列对应的就是 $W$ 的行)，相当于是 $W$ 中 $x_k=1$ 对应的那一行。

基本上就是拷贝了 $W$ 的第 $k$ 行到 $h$ 去了。

输入单词 $w_I$ 的向量表示是 $v_{w_I}$ ，维度是 $\times 1$ 。

从隐藏层到输出层，有一个不同的权重矩阵 $W^′$ ，它是 $\times V$ 的。使用这个权重矩阵，可以计算第 $j$ 个单词的得分 $u_j$ :

$u_j = {v^{\prime} _{w_j}}^T \cdot h \tag{2}$

$v^′_{w_j}$ 是矩阵 $W^′$ 的第 $j$ 列，维度是 $\times 1$ 的， ${v^′_{w_j}}^T$ 维度就是 $\times N$ 。因此 $u_j$ 是这两个向量的内积，结果是一个标量，代表某个单词的分数。

这个得分可以理解为衡量中心词与输出词的相似度， $h$ 其实就是输入词的向量 $v_{w_I}$ 。

我们可以一次性求出所有单词的得分: ${W^′}^T \cdot h$ ，得到的是 $\times 1$ 的向量， $V$ 是词典大小。

接着对 $u$ 进行softmax就可以得到每个单词得分的概率分布：

$p(w_j|w_I) = y_j = \frac{exp(u_j)}{\sum_{j^{\prime} = 1}^V exp(u_{j^{\prime}})} \tag{3}$

$y_j$ 是输出层第 $j$ 个单元的输出。把 $(1)$ , $(2)$ 代入到 $(3)$ 得：

$p(w_j|w_I) = \frac{ exp ({v^{\prime} _{w_j}}^T \cdot v_{w_I} )}{ \sum^V_{j^′=1} exp({v^{\prime} _{w_{j^′}}}^T v_{w_I} ) } \tag{4}$

这里要注意的是：

输入单词 $x$ 和输出单词 $y$ 都是one-hot向量
$v_w$ 和 $v^′_w$ 是输入单词 $w$ 的两种表示，分别称为输入向量和输出向量
$v_w$ 来自 $W$ 的行
$v^′_w$ 来自 $W^′$ 的列

更新权重:隐藏层到输出层

下面我们就可以根据上面的式子来求梯度了。

训练目标是最大化公式 $(4)$ ，即给定输入单词 $w_I$ ，最大化观察到输出单词 $w_O$ 的条件概率(用 $j^*$ 表示它输出层的索引)。

$\begin{aligned} \max p(w_O|w_I) &= \max \, y_{j^*} \\ &= \max \, \log \, y_{j^*} \\ &= \max \, \log \exp (u_{j^*}) - \log \sum_{j^{\prime} = 1}^V exp(u_{j^{\prime}}) \\ &= u_j^* - log \sum_{j^{\prime} = 1}^V exp(u_{j^{\prime}}) := -E \end{aligned}$

$: =$ 是记作的意思，即整个式子记作 $- E$ ,也就是 $E = -\log \, p(w_O|w_I)$ ，因为我们习惯最小化损失函数。

现在我们更新隐藏层和输出层之间的权重。

下面求 $E$ 对 $u_j$ 的偏导，得到了

$\frac{\partial E}{\partial u_j} = y_j - t_j := e_j \tag{5}$

当 $j=j^*$ 时， $t_j=1$ ，否则 $t_j=0$ 。

下面给出公式推导：

$\begin{aligned} \frac{\partial E}{\partial u_j} &=- \frac{ \partial \left( u_j^* - log \sum_{j^{\prime} = 1}^V exp(u_{j^{\prime}}) \right) }{\partial u_j} \\ &= -\frac{\partial u_{j^*}}{\partial u_j} + \frac{\partial \left(\log \sum_{j^{\prime} = 1}^V \exp (u_{j^{\prime}}) \right)}{\partial u_j} \\ &= - t_j + \frac{exp(u_j)}{\sum_{j^{\prime} = 1}^V exp(u_j)} \\ &= y_j - t_j \end{aligned}$

其中

$\frac{\partial \left(\log \sum_{j^{\prime} = 1}^V \exp (u_{j^{\prime}}) \right)}{\partial u_j}$
是通过复合函数的求导法则来求的， $\frac{\partial \log f(x)}{\partial x} = \frac{f(x)^{\prime}}{f(x)}$ ，这里把 $f(x)=\sum_{j^{\prime} = 1}^V \exp (u_{j^{\prime}})$

要求 $\sum_{j^{\prime} = 1}^V \exp (u_{j^{\prime}})$ 对 $u_j$ 的偏导，其实很简单，把求和符号展开即可。

$\frac{ \partial \left(exp(u_1) + exp(u_2) + \cdots + exp(u_j) + \cdots +exp(u_V) \right)}{\partial u_j} = exp(u_j)$

把 $u_j$ 看成一个变量，其他 $u_1,u_2, \cdots$ 都是与 $u_j$ 无关的，因此求导结果为0。

根据公式 $(3)$ 就可以化简为 $y_j - t_j$ 。

结果简单地就是预测值与真实值之差。

下一步就是对 $w^′_{ij}$ 求导来获取它的梯度。

来看下 $\frac{\partial u_j}{\partial w^′_{ij}}$

由公式 $(2)$ 知道 $u_j$ 与 $w^′_{ij}$ 的关系。 $h=v_{w_I}=[h_1,h_2,\cdots,h_N]$

${v^′_{w_j}}^T = [w^′_{1j},w^′_{2j},\cdots,w^′_{1N}]$

$u_j = h_1 \cdot w^′_{1j} + h_2 \cdot w^′_{2j} + \cdots + h_i \cdot w^′_{ij} + \cdots + h_N \cdot w^′_{Nj}$

所以
$\frac{\partial u_j}{\partial w^′_{ij}} = h_i$

$\frac{\partial E}{\partial w^′_{ij}} = \frac{\partial E}{\partial u_j} \cdot \frac{\partial u_j}{\partial w^′_{ij}} = e_j \cdot h_i \tag{6}$

现在就可以使用梯度下降来更新隐藏层到输出层的权重：
$w^′_{ij} = w^′_{ij} - \eta \cdot e_j \cdot h_i$
或者向量的形式为：
$v^′_{w_j} = v^′_{w_j} - \eta \cdot e_j \cdot h$

$h_i$ 是隐藏层的第 $i$ 个单元， $v′_{w_j}$ 是单词 $w_j$ 的输出向量。对每个训练样本都需要做一次复杂度为 $V$ 的操作去更新 $W^′$ 。

更新权重：输入层到隐藏层

接着我们关注输入层到隐藏层的权重。首先求 $\frac{\partial E}{\partial h_i}$

$\frac{\partial E}{\partial h_i} = \sum_{j=1}^V \frac{\partial E}{\partial u_j} \cdot \frac{\partial u_j}{\partial h_i} \\ = \sum_{j=1}^V e_j \cdot w^′_{ij}\\ := EH_i$

$E H$ 是一个 $N$ 维的向量( $\times 1$ )，就是所有输出单词的权重之和，权重是它们的预测错误。

下一步就是要求 $E$ 对 $W$ 的导数，首先回顾下隐藏层就是输入层的线性变换：
$h_i = \sum_{k=1}^V x_k \cdot w_{ki}$

然后我们用链式法则来求 $E$ 对 $W$ 的导数：
$\frac{\partial E}{\partial w_{ki}} = \frac{\partial E}{\partial h_i} \cdot \frac{\partial h_i}{\partial w_{ki}} \\ = EH_i \cdot x_k$

向量化形式等价于 $x$ 和 $E H$ 的张量积：
$\frac{\partial E}{\partial W} = x \otimes EH = x \cdot EH^T$

这样就得到了一个 $\times N$ 的矩阵，因为 $x$ 向量中只有一个元素为 $1$ ，其他都为 $0$ ，所以在 $\frac{\partial E}{\partial W}$ 的矩阵中，只有一行是非零的。并且这一行的值是 $EH^T$ 。

现在我们就可以写出 $W$ 的更新式子了：
$v_{w_I} = v_{w_I} - \eta \cdot EH^T$

因为只有一行是非零的，所以一次也只会更新一行。

CBOW模型

CBOW模型的图示如下：

[CBOW模型图片]

CBOW模型由多个单词作为输入，每个输入都是one-hot模型，同样输出一个单词。由多个上下文单词来预测中心词。计算隐藏层的时候，取输入单词的平均向量，然后乘以权重 $W$ 作为输出：

$\frac{1}{C} (x_1^T + x_2^T + \cdots + x_C^T) W \\ = \frac{1}{C}(v_{w_1} + v_{w_2} + \dots + v_{w_C})$

$C$ 是上下文单词数量，因为是把 $C$ 个输入单词的平均向量作为输入向量，损失函数的定义和上面一个单词的模型一样。

更新隐藏层到输出层的式子也是一样的：
$v^′_{w_j} = v^′_{w_j} - \eta \cdot e_j \cdot h \,\,\,\, for\, j = 1,2, \cdots,V$

更新输入层到隐藏层的权重和之前一样，除了我们需要将梯度均摊到每个输入单词上：

$v_{w_{I,c}} = v_{w_{I,c}} - \frac{1}{C} \cdot \eta \cdot EH^T \,\,\,\, for\, c = 1,2,\cdots,C$

这里每次会更新 $W$ 中的 $C$ 行。

Skipgram模型

在这里插入图片描述

Skip-Gram模型和CBOW模型相反，把中心词放到输入层中，输出层输出的是上下文词。即用中心词来预测上下文词。

我们仍然使用 $v_{w_I}$ 来表示Skip-gram模型的唯一输入向量。然后隐藏层输出 $h$ 的定义也和 $(1)$ 一样。

$W^T x = W_{(k,\cdot)}^T := v_{w_I}^T$

在输出层，不是输出一个多项式分布，而是输出 $C$ 个多项式分布。但每个分布使用同样的权重矩阵来计算：

$p(w_{c,j}|w_I) = y_{c,j} = \frac{exp(u_{c,j})}{\sum_{j^′=1}^V exp(u_{j^′})}$

需要注意的是，这 $C$ 个输出是相互独立的。 $w_{c,j}$ 是第 $c$ 个panel(输出)中的第 $j$ 个单词。 $w_I$ 是输入单词。 $y_{c,j}$ 是第 $c$ 个输出层中的第 $j$ 个单元。
$u_{c,j}$ 是第 $c$ 个输出的第 $j$ 个单元的得分。因为这些输出都共享同样的权重，因此
$u_{c,j} = u_j = {v^′_{w_j}}^T \cdot h \,\, \, for \, c = 1,2,\cdots,C$

$v^′_{w_j}$ 是词典中第 $j$ 个单词的输出向量，它是矩阵 $W^′$ 中的第 $j$ 列。

参数更新的式子和简单CBOW模型有点不同，

$\begin{aligned} E &= -\log p(w_{O,1},w_{O,2},\cdots,w_{O,C}|w_I) \\ &= - \log \prod_{c=1}^C P(w_{O,c}|w_i) \\ &= - \log \prod_{c=1}^C \frac{exp(u_{c,j^*_c})}{\sum_{j^′=1}^V exp(u_{j^′})} \\ &= - \log \prod_{c=1}^C exp(u_{c,j^*_c}) + \log \prod_{c=1}^C \sum_{j^′=1}^V exp(u_{j^′})\\ &= - \sum_{c=1}^C u_{j^*_c} + \log (\sum_{j^′=1}^V exp(u_{j^′}))^C\\ &= - \sum_{c=1} ^ C u_{j^*_c} + C \cdot \log \sum_{j^′=1}^V exp(u_{j^′}) \end{aligned}$

$w_{O,c}$ 代表第 $c$ 个输出单词， $j^*_c$ 表示第 $c$ 个输出单词的索引。
因为这 $C$ 个输出是相互独立的，因此 $p(w_{O,1},w_{O,2},\cdots,w_{O,C}|w_I) = \prod P(w_{O,c}|w_I)$

下面我们求梯度，对第 $c$ 个多项分布的第 $j$ 项的梯度为：

$\frac{\partial E}{\partial u_{c,j}} = y_{c,j} - t_{c,j} := e_{c,j}$

就是某个输出的预测错误，考虑到 $C$ 个多项分布产生的影响，所以需要求和。

为了简化，我们定义一个 $V$ 维的向量 ${EI_1,\cdots,EI_V}$ 作为所有上下文单词的预测错误之和。

对第 $j$ 个单词的预测错误之和为：
$EI_j = \sum_{c=1}^C e_{c,j}$

接下来，对隐藏层到输出层矩阵 $W^\prime$ 求导：

$\frac{\partial E}{\partial w^\prime_{ij}} = \sum_{c=1}^C \frac{\partial E}{\partial u_{c,j}} \cdot \frac{\partial u_{c,j}}{\partial w^\prime_{ij}} = EI_j \cdot h_i$

所以更新隐藏层到输出层权重的式子为：

$w^\prime_{ij} = w^\prime_{ij} -\eta \cdot EI_j \cdot h_i$
或者
$v^\prime_{w_j} = v^\prime_{w_j} - \eta \cdot EI_j \cdot h \,\,\, for\, j=1,2,\cdots,V$

下面考虑对隐藏层的梯度：
$\begin{aligned} \frac{\partial E}{\partial h_i} &= \sum_{c=1}^C \sum_{j=1}^V \frac{\partial E}{\partial u_{c,j}} \frac{\partial u_{c,j}}{\partial h_i } \\ &= \sum_{c=1}^C \sum_{j=1}^V e_{c,j} \cdot w^\prime_{ij} \\ &= \sum_{j=1}^V EI_j \cdot w^\prime_{ij} := EH_i \end{aligned}$

和简单CBOW模型一样，整成向量化的形式为：
$\frac{\partial E}{\partial h} = EH^T$

由于输入只有一个词， $h=v_{w_I}^T$ ，每次也是更新 $W$ 的一行：

$v_{w_I} = v_{w_I} - \eta \cdot EH^T$

简单代码实现

# -*- coding: utf-8 -*-
# @Author  : Jue

from collections import defaultdict

import numpy as np


class word2vec:
	def __init__(self, settings):
		self.n = settings['n']
		self.eta = settings['learning_rate']
		self.epochs = settings['epochs']
		self.window = settings['window_size']
		# true:cbow ; false:skipgram
		self.cbow = settings['model'] == 'cbow'

	def generate_training_data(self, corpus):
		# 单词计数
		word_counts = defaultdict(int)
		for row in corpus:
			for word in row:
				word_counts[word] += 1

		# 词典大小V
		self.v_count = len(word_counts.keys())

		# 生成LOOKUP 词典
		self.words_list = sorted(list(word_counts.keys()), reverse=False)

		# 单词对应的索引
		self.word_index = dict((word, i) for i, word in enumerate(self.words_list))
		# 索引对应的单词
		self.index_word = dict((i, word) for word, i in self.word_index.items())

		training_data = []

		for sentence in corpus:
			sent_len = len(sentence)

			for i, word in enumerate(sentence):
				# 目标词
				w_target = self.word2onehot(sentence[i])

				# 上下文词
				w_context = []
				for j in range(i - self.window, i + self.window + 1):
					if j != i and sent_len - 1 >= j >= 0:
						w_context.append(self.word2onehot(sentence[j]))

				training_data.append([w_target, w_context])  # 中心词,上下文词
		return np.array(training_data, dtype=object)

	def train(self, training_data, debug=False):
		# 初始化权重矩阵
		self.w1 = np.random.uniform(-0.8, 0.8, (self.v_count, self.n))  # 目标词矩阵 W v x n
		self.w2 = np.random.uniform(-0.8, 0.8, (self.n, self.v_count))  # 上下文词矩阵  W′ n x v

		# 迭代epochs次
		for i in range(self.epochs):
			self.loss = 0
			# 中心词,上下文词
			for w_t, w_c in training_data:
				if self.cbow:
					x = np.mean(w_c, axis=0)
				else:
					x = w_t
				# 前向传播
				y_pred, h, u = self.forward_pass(x)

				# 计算损失 e_j
				if self.cbow:
					e = y_pred - w_t  # dE/du
				else:
					e = np.sum([np.subtract(y_pred, word) for word in w_c], axis=0)

				# 反向传播
				self.backprop(e, h, x)
				if self.cbow:
					self.loss += -float(u[w_t == 1]) + np.log(np.sum(np.exp(u)))
				else:
					self.loss += -np.sum([u[word == 1] for word in w_c]) + len(w_c) * np.log(np.sum(np.exp(u)))

			if i % 100 == 0 and debug:
				print('EPOCH:', i, 'LOSS:', self.loss)

	def forward_pass(self, x):
		'''
		:param x:  vx1 one-hot向量
		:return:
		'''
		h = np.dot(self.w1.T, x)  # (nxv)  (vx1) -> nx1
		u = np.dot(self.w2.T, h)  # (v x n) (n x 1)   -> vx1 计算每个单词的得分
		y_c = self.softmax(u)  # 通过softmax进行归一化，得到每个单词对应的概率
		return y_c, h, u

	def backprop(self, e, h, x):
		'''

		:param e: v x 1
		:param h: n x 1
		:param x: v x 1
		:return:
		'''
		dw2 = np.outer(h, e)  # n x v    W′的梯度

		dw1 = np.outer(x, np.dot(self.w2, e))  # (vx1)  (nxv vx1)->nx1

		self.w1 -= self.eta * dw1
		self.w2 -= self.eta * dw2

	def word2onehot(self, word):
		word_vec = np.zeros((self.v_count, 1))
		word_vec[self.word_index[word]] = 1
		return word_vec

	def softmax(self, x):
		e_x = np.exp(x - np.max(x))
		return e_x / e_x.sum(axis=0)

	def word_2_vec(self, word):
		w_index = self.word_index[word]
		return self.w1[w_index]


def cos_similarity(v1, v2):
	return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))


if __name__ == '__main__':
	settings = {}
	settings['n'] = 2  # dimension of word embeddings
	settings['window_size'] = 2  # context window +/- center word
	settings['min_count'] = 0  # minimum word count
	settings['epochs'] = 5000  # number of training epochs
	settings['neg_samp'] = 5  # number of negative words to use during training
	settings['learning_rate'] = 0.1  # learning rate
	settings['model'] = 'skipgram'  # cbow or skipgram
	np.random.seed(0)  # set the seed for reproducibility

	corpus = [['A', 'dog', 'is', 'running', 'in', 'the', 'room'],
	          ['A', 'cat', 'is', 'running', 'in', 'the', 'room']]
	# corpus = []
	# corpus = [['natural', 'language', 'processing', 'and', 'machine', 'learning', 'is', 'fun', 'and', 'exciting']]
	# I like playing football with my friends
	w2v = word2vec(settings)

	# 生成训练数据
	training_data = w2v.generate_training_data(corpus)
	# print(training_data)
	# 训练
	w2v.train(training_data, debug=True)
	for w1 in w2v.word_index.keys():
		for w2 in w2v.word_index.keys():
			print("%s & %s similarity is %s" % (w1, w2, cos_similarity(w2v.word_2_vec(w1), w2v.word_2_vec(w2))))

	vecs = np.array([w2v.word_2_vec(vec) for vec in w2v.word_index.keys()])

	import matplotlib.pyplot as plt

	plt.scatter(vecs[:, 0], vecs[:, 1])

	words = list(w2v.word_index.keys())
	for i, word in enumerate(words):
		plt.annotate(word, xy=(vecs[i, 0], vecs[i, 1]))
	plt.show()