【学习笔记】自然语言处理实践(新闻文本分类)- 基于深度学习的文本分类Word2Vec

Datawhale零基础入门NLP赛事-Task5

本笔记是参加Datawhale零基础入门NLP赛事的学习笔记。

文本表示方法

词向量(Word embedding),语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。
one-hot representation,用一个很长的向量来表示一个词(缺点:维数大,不能表现词间相似性)。
Distributed Representation,通过训练将某种语言中的每一个词映射成一个固定长度的短向量(相对于one-hot)。所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性。

Word2Vec模型

Word2vec模型背后的基本思想是对出现在上下文环境里的词进行预测。每个词表征为𝐾维的实数向量(每个实数都对应着一个特征,可以是和其他单词之间的联系),将相似的单词分组映射到向量空间的不同部分。也就是Word2Vec能在没有人为干涉下学习到单词之间的关系。
word2vec的主要思路:通过单词和上下文彼此预测,对应的两个算法分别为:

  • Skip-grams (SG):预测上下文
  • Continuous Bag of Words (CBOW):预测目标单词
  1. Skip-grams模型
    Skip-Gram(跳字模型)是给定input word来预测上下文。
    在这里插入图片描述
    Word2Vec模型实际上分为了两个部分,第一部分为建立模型,第二部分是通过模型获取嵌入词向量。Word2Vec的整个建模过程实际上与自编码器(auto-encoder)的思想很相似,即先基于训练数据构建一个神经网络,当这个模型训练好以后,我们并不会用这个训练好的模型处理新的任务,我们真正需要的是这个模型通过训练数据所学得的参数,例如隐层的权重矩阵——后面我们将会看到这些权重在Word2Vec中实际上就是我们试图去学习的“word vectors”。

  2. CBOW模型
    CBOW是给定上下文,来预测input word。
    在这里插入图片描述
    CBOW模型跟skip-gram的原理是一样的,只不过在输入的时候是该词周围的词向量加总作为输入。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值