Word2vec vs Bert 系列技术要点

最新推荐文章于 2022-04-24 19:12:41 发布

今天不学习很愧疚

最新推荐文章于 2022-04-24 19:12:41 发布

阅读量2.9k

点赞数

分类专栏：自然语言处理文章标签：自然语言处理机器学习

本文链接：https://blog.csdn.net/weixin_45123595/article/details/108217202

版权

本文回顾了Word2vec的基本概念，如CBOW和Skip-gram模型，以及负采样优化。接着介绍了Seq2Seq模型的注意力机制，强调了Transformer的自注意力层和并行训练优势。BERT作为预训练模型，利用Transformer的编码器，通过掩码语言模型任务实现上下文相关的词嵌入。BERT的预训练和微调策略为NLP任务带来了显著提升。

摘要由CSDN通过智能技术生成

Word2vec vs Bert 系列技术要点

文章目录

Word2vec vs Bert 系列技术要点

Word2vec内容回顾

目的

将词转化为向量有助于机器理解
更容易计算词语和词语之间的距离，表此词语之间的关系

类比

比如说词向量之间的距离可以用下面的形式表示出来：King － man + woman ≈ queen

引入

输入法：已经输入了一些词，产生若干的联想选项
词语的推荐，需要使用语言模型：从输入到输出
处理有三个步骤，首先是在词典中查询输入词的词向量，然后计算概率，然后找出对应的词语输出（概率）

考虑如何构建词向量

词嵌入，通过查看这个词语的上下文的单词进行嵌入
前提
- 有巨大的语料库（这个语料库已经被分好词了）
- 有一个滑动窗口（3，5，7？），也就是限制每次传入模型进行训练的窗口，窗口的大小就是每次传入模型的词语数量
- 每次滑动窗口产生一次训练语料（一次训练语料包括有feature context和label word，至于哪些是上下文，哪些用作预测label有不同的模型）
输入Input：单词（也就是特征），输出Output：预测词（也就是标签）
当要预测下面两个空
Example1：He was hit by a _________?

Example2：He was hit by a _________ bus?
非常直观第一个词很容易想到是bus，第二个词容易想到是red，也就是说预测的这个空是跟这个空的上下文是紧密相关的，由此也就引发了下面的两种模型
CBOW模型（Continuous Bag of Words）：通过context去预测中间的词。比如说
He was hit by a red bus in road这句话，用黑色加粗的部分context，去预测red
Skip-gram模型和CBOW的策略相反，用red去预测context

主要介绍一下Skip-gram的一些关键步骤

通过滑动窗口来产生输入的语料

最低0.47元/天解锁文章

今天不学习很愧疚

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
Word2vec vs Bert 系列技术要点

Word2vec vs Bert 系列技术要点文章目录Word2vec vs Bert 系列技术要点Word2vec内容回顾Seq2Seq模型的注意力(Attention)机制Attention机制Transformer原理BERT原理**Bert的提升与进步**（对比）Word2vec内容回顾目的将词转化为向量有助于机器理解更容易计算词语和词语之间的距离，表此词语之间的关系类比比如说词向量之间的距离可以用下面的形式表示出来：King － man + woman ≈ queen引入
复制链接

扫一扫