Word2vec vs Bert 系列技术要点

本文回顾了Word2vec的基本概念,如CBOW和Skip-gram模型,以及负采样优化。接着介绍了Seq2Seq模型的注意力机制,强调了Transformer的自注意力层和并行训练优势。BERT作为预训练模型,利用Transformer的编码器,通过掩码语言模型任务实现上下文相关的词嵌入。BERT的预训练和微调策略为NLP任务带来了显著提升。
摘要由CSDN通过智能技术生成

Word2vec vs Bert 系列技术要点

img

Word2vec内容回顾

目的

  • 将词转化为向量有助于机器理解
  • 更容易计算词语和词语之间的距离,表此词语之间的关系

类比

  • 比如说词向量之间的距离可以用下面的形式表示出来:King - man + woman ≈ queen

引入

  • 输入法:已经输入了一些词,产生若干的联想选项

  • 词语的推荐,需要使用语言模型:从输入到输出

  • 在这里插入图片描述

  • 处理有三个步骤,首先是在词典中查询输入词的词向量,然后计算概率,然后找出对应的词语输出(概率)

考虑如何构建词向量

  • 词嵌入,通过查看这个词语的上下文的单词进行嵌入

  • 前提

    • 有巨大的语料库(这个语料库已经被分好词了)

    • 有一个滑动窗口(3,5,7?),也就是限制每次传入模型进行训练的窗口,窗口的大小就是每次传入模型的词语数量

    • 每次滑动窗口产生一次训练语料(一次训练语料包括有feature context和label word,至于哪些是上下文,哪些用作预测label有不同的模型)

  • 输入Input:单词(也就是特征),输出Output:预测词(也就是标签)

  • 当要预测下面两个空
    Example1:He was hit by a _________?

    Example2:He was hit by a _________ bus?
    非常直观第一个词很容易想到是bus,第二个词容易想到是red,也就是说预测的这个空是跟这个空的上下文是紧密相关的,由此也就引发了下面的两种模型

  • CBOW模型(Continuous Bag of Words):通过context去预测中间的词。比如说
    He was hit by a red bus in road这句话,用黑色加粗的部分context,去预测red

  • Skip-gram模型和CBOW的策略相反,用red去预测context

主要介绍一下Skip-gram的一些关键步骤

  • 通过滑动窗口来产生输入的语料

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值