cs224n学习笔记 02:Word Vectors and Word Senses

最新推荐文章于 2024-09-16 12:18:48 发布

Irving_III

最新推荐文章于 2024-09-16 12:18:48 发布

阅读量264

点赞数

文章标签：机器学习深度学习算法自然语言处理

本文链接：https://blog.csdn.net/weixin_45684408/article/details/106982949

版权

课程目标

简单回顾词向量和词向量模型word2vec
词向量的glove模型
评估词向量
词的含义

1.word2vec回顾

迭代语料库中的每个单词

使用词向量预测周围的单词
在这里插入图片描述

向量是行向量的形式。U*v4是外围词向量和中心词向量的乘积。在计算乘积的softmax。

简单的说word2vec就是把意思相近的单词放在空间中相近的地方。

在这里插入图片描述
J(θ)为希望最小化的代价函数。往负梯度方向更新参数，不断重复。

更新方程：

存在问题：
J(θ)是关于整个语料库所有窗口的函数，求梯度代价很大。

解决方案：SGD随机梯度下降。随机选取窗口进行梯度更新。

但是在每个窗口中，最多有2m+1个单词，所以梯度非常稀疏。
在这里插入图片描述
解决方案：
只更新U、V中确定的某几行。
skip-gram中的负采样。

2.共现矩阵

Matrix Factorization的原理比较简单，就是将一个矩阵D分解为U和V的乘积，即对于一个特定的规模为mn的矩阵D，估计出规模分别为mk和n*k的矩阵U和V，使得UVTUVT的值尽可能逼近矩阵D。一般来讲，k的取值应该满足k≤min{m,n}k≤min{m,n}，这样矩阵分解才有意义。如果在推荐系统中，D代表用户对商品的行为矩阵的话，那么U和V则分别代表embedding表示的用户和商品向量。
以公式来表示的话，就是
在这里插入图片描述
其中Ui表示U矩阵第i行的向量，Vj表示V矩阵第j行向量。
为了限制U,V的取值呈现一个以0为中心的正态分布，这里对U,V的值加上正则项，得到目标优化项

Matrix Factorization的基本实现

def LFM_ed2(D, k, iter_times=1000, alpha=0.01, learn_rate=0.01):
    '''
    此函数实现的是最简单的 LFM 功能
    :param D: 表示需要分解的评价矩阵, type = np.ndarray
    :param k: 分解的隐变量个数
    :param iter_times: 迭代次数
    :param alpha: 正则系数
    :param learn_rate: 学习速率
    :return:  分解完毕的矩阵 U, V, 以及误差列表err_list
    '''
    assert type(D) == np.ndarray
    m, n = D.shape  # D size = m * n
    U = np.random.rand(m, k)    # 为何要一个均匀分布一个正态分布？
    V = np.random.randn(k, n)
    err_list = []
    for t in range(iter_times):
        # 这里，对原文中公式推导我认为是推导正确的，但是循环效率太低了，可以以矩阵形式计算
        D_est = np.matmul(U, V)
        ERR = D - D_est
        U_grad = -2 * np.matmul(ERR, V.transpose()) + 2 * alpha * U
        V_grad = -2 * np.matmul(U.transpose(), ERR) + 2 * alpha * V
        U = U - learn_rate * U_grad
        V = V - learn_rate * V_grad

        ERR2 = np.multiply(ERR, ERR)
        ERR2_sum = np.sum(np.sum(ERR2))
        err_list.append(ERR2_sum)
    return U, V, err_list

Matrix Factorization的简单测试

if __name__=='__main__':
    D = np.array([[5,5,0,5],[5,0,3,4],[3,4,0,3],[0,0,5,3],[5,4,4,5],[5,4,5,5]])
    U, V, err_list = LFM_ed2(D, 3, iter_times=200, learn_rate=0.01, alpha=0.01)
    print(err_list[-1])
    err_log = np.log(np.array(err_list))
    plt.plot(err_list)
    plt.show()
    plt.figure(2)
    plt.plot(err_log)
    plt.show()