零基础入门NLP-Task6 基于深度学习的文本分类3

最新推荐文章于 2020-10-21 00:02:44 发布

布丁咩咩

最新推荐文章于 2020-10-21 00:02:44 发布

阅读量160

点赞数

分类专栏：零基础入门NLP新闻文本分类

本文链接：https://blog.csdn.net/zcy0108/article/details/107797258

版权

本文介绍了Transformer的原理，强调了self-attention层和前向网络的作用，提到了多头注意力机制。还探讨了基于BERT的文本分类，包括预训练数据的处理、掩码语言模型任务以及在Pytorch中进行模型转换和微调的方法。

摘要由CSDN通过智能技术生成

Transformer 原理

在这里插入图片描述
我们重点关注编码部分。他们结构完全相同，但是并不共享参数，每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后，它们首先流过一个self-attention层，该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-attention的输出流向一个前向网络（Feed Forward Neural Network），每个输入位置对应的前向网络是独立互不干扰的。最后将输出传入下一个编码器。
在这里插入图片描述
这里能看到Transformer的一个关键特性，每个位置的词仅仅流过它自己的编码器路径。在self-attention层中，这些路径两两之间是相互依赖的。前向网络层则没有这些依赖性，但这些路径在流经前向网络时可以并行执行。

Self-Attention中使用多头机制，使得不同的attention heads所关注的的部分不同。
在这里插入图片描述
编码"it"时，一个attention head集中于"the animal"，另一个head集中于“tired”，某种意义上讲，模型对“it”的表达合成了的“animal”和“tired”两者。

对于自注意力的详细计算，欢迎大家参考Jay Alammar关于Transformer的博客，这里不再展开。

除此之外，为了使模型保持单词的语序，模型中添加了位置编码向量。如下图所示，每行对应一个向量的位置编码。因此，第一行将是我们要添加到输入序列中第一个单词的嵌入的向量。每行包含512个值—每个值都在1到-1之间。因为左侧是用sine函数生成，右侧是用cosine生成，所以可以观察到中间显著的分隔。

基于Bert的文本分类

预训练过程使用了Google基于Tensorflow发布的BERT源代码。首先从原始文本中创建训练数据，由于本次比赛的数据都是ID，这里重新建立了词表，并且建立了基于空格的分词器

class WhitespaceTokenizer(object):
    """WhitespaceTokenizer with vocab."""
    def __init__(self, vocab_file):
        self.vocab = load_vocab(vocab_file)
        self.inv_vocab = {
   v: k for k, v in self.vocab.items()}

    def tok

最低0.47元/天解锁文章

布丁咩咩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
零基础入门NLP-Task6 基于深度学习的文本分类3

Transformer 原理我们重点关注编码部分。他们结构完全相同，但是并不共享参数，每一个编码器都可以拆解成两部分。在对输入序列做词的向量化之后，它们首先流过一个self-attention层，该层帮助编码器在它编码单词的时候能够看到输入序列中的其他单词。self-attention的输出流向一个前向网络（Feed Forward Neural Network），每个输入位置对应的前向网络是独立互不干扰的。最后将输出传入下一个编码器。这里能看到Transformer的一个关键特性，每个位置的词仅仅
复制链接

扫一扫