word2vector之CBoW模型详解

10 篇文章 3 订阅
4 篇文章 0 订阅

深度学习入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删。

✨word2vector系列展示✨

一、CBOW

1、朴素CBOW模型

本篇

2、基于分层softmax的CBOW模型

基于分层softmax的CBoW模型详解_tt丫的博客-CSDN博客

3、基于高频词抽样+负采样的CBOW模型

基于高频词抽样+负采样的CBOW模型_tt丫的博客-CSDN博客

二、Skip_Gram

word2vector之Skip_Gram模型详解_tt丫的博客-CSDN博客

(关于Skip_Gram的分层softmax和负采样,与CBOW类似)

目录

一、前景知识

二、CBoW模型思想

三、CBoW模型结构分析

1、网络结构图

2、CBoW模型 Vs NNLM

3、网络层次级分析

四、代码实现


一、前景知识

这些可以根据需要跳着看

NLP之文本预处理详解_tt丫的博客-CSDN博客

NLP之文本特征提取详解_tt丫的博客-CSDN博客


二、CBoW模型思想

通过上下文来预测当前值,即像我们的填词游戏。

CBoW模型等价于一个词袋模型的向量乘一个矩阵,得到一个连续的embedding向量。


三、CBoW模型结构分析

1、网络结构图

🌳网络结构如图所示:(左图是CBoW模型;右图是NNLM模型)

         

2、CBoW模型 Vs NNLM

(1)最直观的就是它的输入了:CBoW模型考虑了上下文(t - 1,t + 1);NNLM只考虑前文

(2)舍掉NNLM前向反馈神经网络中非线性的hidden layer,直接将中间层的embedding layer与输出层的softmax layer连接

3、网络层次级分析

(1)INPUT:

输入的是上下文单词的one hot编码。假设单词向量空间的维度为V,即整个词库大小为V,上下文单词窗口的大小为C。所以输入大小 C * V。

(2)Hidden :

假设hidden layer最终得到的词向量的维度大小为N,INPUT到Hidden的权值共享矩阵(“共享”即每个词乘的W一样)为W。W的大小为 V ∗ N,并且初始化。

我们将C个1 * V大小的向量分别同一个上述所说的V ∗ N大小的W相乘,得到的是C个1 ∗ N 大小的向量。再将这C个1 ∗ N大小的向量取平均,得到一个1 ∗ N 大小的向量。

(3)OUTPUT:

初始化输出权重矩阵大小为N ∗ V的W’

将Hidden layer1 ∗ N 的向量与W’相乘,并且用softmax处理,得到1 ∗ V的向量,此向量的每一维代表词库中的一个词。概率中最大的index所代表的单词即为预测出的中间词。


四、代码实现

🎈导入所需的库

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

🎈从文件中读取数据,并且进行一定的处理(解析详见NNLM中的代码解析,就上面前景知识的链接)

path = "1.txt"
f = open(path, 'r', encoding= 'utf-8', errors= 'ignore')
text = []
piece = ''
for line in f:
    for uchar in line:
        if uchar == '\n':
            continue
        if uchar == '.' or uchar == '?' or uchar == '!':
            text.append(piece)
            piece = ''
        else:
            piece = piece + uchar

word_list = " ".join(text).split()

#将分词后的结果去重
vab = list(set(word_list))

#对单词建立索引
word_dict = {w:i for i, w in enumerate(vab)} #单词-索引

🎈对输入的数据进行处理(针对上下文的输入)

data = []
for i in range(2, len(word_list) - 2):
    context = [word_list[i - 2], word_list[i - 1],
               word_list[i + 1], word_list[i + 2]]
    target = word_list[i]
    data.append((context, target))

🎈CBoW模型构建

class CBOW(nn.Module):
    '''''
    word_size相当于V;
    embedding_dim:嵌入词向量的维度;
    context_size相当于一半上下文的大小。
    '''''
    def __init__(self, word_size, embedding_dim, context_size):
        super(CBOW, self).__init__()
        self.embeddings = nn.Embedding(word_size, embedding_dim)
        self.linear1 = nn.Linear(2*context_size * embedding_dim, 128)
        #N为128
        self.linear2 = nn.Linear(128, word_size)

    def forward(self, inputs):
        embeds = self.embeddings(inputs).view((1, -1))
        out = F.relu(self.linear1(embeds))
        out = self.linear2(out)
        probs = F.log_softmax(out, dim=1)
        return probs

🎈网络配置准备

EMBEDDING_DIM = 10
CONTEXT_SIZE = 2
losses = []
loss_function = nn.NLLLoss()
model = CBOW(len(vab), EMBEDDING_DIM, CONTEXT_SIZE)
optimizer = optim.SGD(model.parameters(), lr=0.001)

🎈训练

for epoch in range(500):
    total_loss = 0
    for context, target in data:

        # 准备好进入模型的数据
        idxs = [word_dict[w] for w in context]
        context_idx = torch.tensor(idxs, dtype=torch.long)

        # 梯度置零
        model.zero_grad()

        # 进入模型训练
        log_probs = model(context_idx)

        # 计算损失函数
        loss = loss_function(log_probs, torch.tensor([word_dict[target]], dtype=torch.long))

        # 反向传播并更新梯度
        loss.backward()
        optimizer.step()

        total_loss += loss.item()
    losses.append(total_loss)
print(losses) 

欢迎大家在评论区批评指正,谢谢啦~

  • 8
    点赞
  • 35
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
CBOW(Continuous Bag-of-Words)模型是一种用于自然语言处理的神经网络模型,它的输入是上下文中的词汇,输出是中心词汇。CBOW 模型的代码实现如下: ```python import numpy as np from keras.preprocessing.text import Tokenizer from keras.utils import to_categorical from keras.models import Sequential from keras.layers import Dense, Embedding, Lambda # 设置超参数 vocab_size = 5000 embedding_dim = 100 window_size = 2 # 构建语料库 corpus = [ 'I like playing soccer with my friends', 'He enjoys playing basketball on weekends', 'The cat loves drinking milk every morning' ] # 将语料库转化为词向量矩阵 tokenizer = Tokenizer(num_words=vocab_size) tokenizer.fit_on_texts(corpus) sequences = tokenizer.texts_to_sequences(corpus) # 构建训练数据集 x_train = [] y_train = [] for sequence in sequences: for i in range(window_size, len(sequence) - window_size): context = sequence[i-window_size:i] + sequence[i+1:i+window_size+1] target = sequence[i] x_train.append(context) y_train.append(target) x_train = np.array(x_train) y_train = to_categorical(y_train, num_classes=vocab_size) # 构建 CBOW 模型 model = Sequential() model.add(Embedding(vocab_size, embedding_dim, input_length=window_size * 2)) model.add(Lambda(lambda x: np.mean(x, axis=1), output_shape=(embedding_dim,))) model.add(Dense(vocab_size, activation='softmax')) model.compile(loss='categorical_crossentropy', optimizer='adam') # 训练 CBOW 模型 model.fit(x_train, y_train, epochs=50, verbose=1) # 输出词向量矩阵 embeddings = model.get_weights()[0] print(embeddings) ``` 在上面的代码中,我们首先读取语料库,将其转化为词向量矩阵,并且根据窗口大小构建训练数据集。然后,我们构建 CBOW 模型,其中使用了 Embedding 层和 Lambda 层,最后将模型训练得到的词向量矩阵输出。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

tt丫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值