context2vec：Learning Generic Context Embedding with Bidirectional LSTM

最新推荐文章于 2020-12-25 19:51:45 发布

wjunneng

最新推荐文章于 2020-12-25 19:51:45 发布

阅读量710

点赞数 2

分类专栏： NLP 预训练模型 context2vec 文章标签： NLP

本文链接：https://blog.csdn.net/wwwjjjnnn/article/details/107056827

版权

参考

https://www.aclweb.org/anthology/K16-1006/
https://github.com/tatsuokun/context2vec
https://blog.csdn.net/yang191919/article/details/106141327

论文解读

* 提出了一种无监督模型，借助双向LSTM从大型语料库中有效学习通用句子上下文表征。
* 为了实现具体的目标实例推断，如果能够良好地表征目标单词和对应的句子上下文将对其有很大的帮助。
* 之前，在一些NLP任务上，使用的上下文表示形式通常只是相邻单词在目标单词周围的窗口中的单词嵌入的简单集合，或者是这些词嵌入的（有时候是加权的）平均值（average-of-word-embeddings represtation AWE）。可以看出，**这些方法并没有考虑到任何用于优化整个句子上下整体表示的机制。**
* 使用大型纯文本语料库来学习将整个句子上下文和目标词嵌入到同一低维空间的神经网络模型，该模型经过优化来反映出目标词与其相应的句子上下文之间的依赖性。
* 使用双向LSTM递归神经网络，从左到右方向LSTM提供一个句子序列，从右到左再提供一个序列，这两个网络的参数是完全独立的，包括两组从左到右和从右到左的上下文词嵌入。然后将这两个上下文向量拼接，喂入到多层感知机，以表示两侧上下文之间的非平凡依赖关系。
* 为了学习网络的参数，使用Word2Vec中提到的负采样目标函数，即一个正对是目标单词和整个句子上下文，而相应的k个负对（区别：不同的目标单词，相同的句子上下文）作为随机目标单词，是从词汇表上（平滑的）单词组合分布中采样的，并与相同的上下文配对。这样，我们既可以学习上下文嵌入网络参数，也可以学习目标词嵌入。
* 与Word2Vec和其他类似的词嵌入模型主要在内部使用上下文建模并将目标词嵌入作为其主要的输出相反，该文的主要重点是学习上下文表示。这样，将通过为句子上下文及其关联的目标词分配相似的嵌入表示来实现目标。这与Word2Vec类似，间接地将相似的词嵌入分配给相似的句子上下文相关联的目标单词，反之则分配给与相似的目标单词相关联的句子上下文。

Word2Vec
Context2Vec

* 上图是Word2Vec和Context2Vec的结构图，后者类似前者，但是在Word2Vec中的CBOW架构中，使用AWE处理上下文 Embedding，而Context2Vec则是把上下文的词 Embedding输入到双向的LSTM，左侧蓝色的是正向的Embedding和右侧绿色的反向 Embedding分别经过LSTM的流转，最后进行拼接输入到多层感知机，产生红色的包含上下文信息的上下文 Embedding，最后，再经目标函数去整体训练参数。
* 通过LSTM的长时记忆能力，Context2Vec可以捕捉到离目标词更远的上下文信息，同时将序列之间的联系引入到模型中，并且通过多层感知机，又将左右两边的序列信息很好地结合在一起，成为真正的包含上下文语义信息的上下文 Embedding.
* 我们就可以联想到，建模最可能出现的文本序列，不就是语言模型的功能吗。论文中也提到，由于context2vec 利用文本上下文的机制，context2vec 和语言模型的关系是非常紧密的，比如它们都是通过上下文和目标词来训练模型，从而捕捉每个词和周围词的联系。主要区别在于语言模型着眼于优化通过上下文来预测目标词的条件概率，而context2vec是想找出一个有效的向量表达来刻画目标词和整个上下文的关系，所以这篇文章可以认为是传统词嵌入和预训练语言模型的一条纽带。最后，文章又在完形填空，词义消岐等任务上评测了一下context2vec的效果，都能达到或超过state-of-the-art的水平。

代码解析

### nets.py ###

import math
import torch
import torch.nn as nn
from src.core.loss_func import NegativeSampling


class Context2vec(nn.Module):

    def __init__(self, vocab_size, counter, word_embed_size, hidden_size, n_layers, bidirectional, use_mlp, dropout,
                 pad_index, device, inference):

        super(Context2vec, self).__init__()
        self.vocab_size = vocab_size
        self.word_embed_size = word_embed_size
        self.hidden_size = hidden_size
        self.n_layers = n_layers
        self.use_mlp = use_mlp
        self.device = device
        self.inference = inference
        self.rnn_output_size = hidden_size

        self.drop = nn.Dropout(dropout)
        # 方向:左到右
        self.l2r_emb = nn.Embedding(num_embeddings=vocab_size,
                                    embedding_dim=word_embed_size,
                                    padding_idx=pad_index)
        self.l2r_rnn = nn.LSTM(input_size=word_embed_size,
                               hidden_size=hidden_size,
                               num_layers=n_layers,
                               batch_first=True)

        # 方向:右到左
        self.r2l_emb = nn.Embedding(num_embeddings=vocab_size,
                                    embedding_dim=word_embed_size,
                                    padding_idx=pad_index)
        self.r2l_rnn = nn.LSTM(input_size=word_embed_size,
                               hidden_size=hidden_size,
                               num_layers=n_layers,
                               batch_first=True)

        # 负采样 counter:词典中的词对应的频数(注:pad/unk/sos/eos对应为0) | hidden_size:600 | 采样数目:10 | 平滑因子alpha:0.75
        self.criterion = NegativeSampling(embed_size=hidden_size, counter=counter, n_negatives=10, power=0.75,
                                          device=device, ignore_index=pad_index)

        # 多层感知机
        if use_mlp:
            self.MLP = MLP(input_size=hidden_size * 2,
                           mid_size=hidden_size * 2,
                           output_size=hidden_size,
                           dropout=dropout)
        else:
            # nn.Parameter：将一个固定不可训练的tensor转换成可以训练的类型parameter,
            # 让某些变量在学习的过程中不断的修改其值以达到最优化.
            self.weights = nn.Parameter(torch.zeros(2, hidden_size))
            self.gamma = nn.Parameter(torch.ones(1

最低0.47元/天解锁文章

wjunneng

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
2
评论
context2vec：Learning Generic Context Embedding with Bidirectional LSTM

参考https://www.aclweb.org/anthology/K16-1006/https://github.com/tatsuokun/context2vec论文解读代码解析### nets.py ###import mathimport torchimport torch.nn as nnfrom src.core.loss_func import NegativeSamplingclass Context2vec(nn.Module): def __in
复制链接

扫一扫

专栏目录