深度学习核心技术实战 NLP-word2vec

 

多分类的逻辑回归- softmax模型


word2vec:词向量  one-hot representation 对应位置为1,但不能表达词之间的关系

本质上是对词的一种表示,但是是结合了上下文内容的。无监督模型

词的两种表示:

  • One-hot Representation(独热表示) 
    苹果表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …] 
    优点:简介,缺点:词之间是孤立的,维数灾难。
  • Distributed Representation(分布式表示) 
    词向量或者词嵌入(word embedding是用一个向量来表示一个词,一定程度上可以用来刻画词之间的语义距离。 
    给出一个文档,用一个单词序列比如我喜欢苹果,然后对文档中每个不同的单词都得到一个对应的低维向量表示,苹果表示为 [0.11, −0.77, −0.71, 0.10, −0.50, …] 
    优点:低维、相似词的词向量距离相近,缺点:计算复杂。

 

n-gram n=1上下文无关  n=5往前看4个词(n-1)。  

n-gram n=2 bigram模型  无法建模出词之间的相似度,只能有前后的转换概率。出现没有见过的需要用laplace平滑。或者回退法。

 

训练目标一般都为最大似然+正则项,对最大似然的相反数可进行随机梯度下降优化。输出层为softmax。

 

基于决策树的,是否是xx词性,是否是XX词

最大熵模型:又叫指数模型,softmax形式。在只掌握关于未知分布的部分知识时,应当选取符合这些知识的但又能使得熵最大的概率分布。

自适应语言模型  单独训练一个局部模型,将全局和侦测到这个局部模型的区域用混合模型去解决。

 

CBOW continuous bag of words 连续词袋模型 使用当前预测词汇的前后各k个词(k为window-b,b为一个随机数) 一起输入到神经网络中projection中 再输出。 实际操作为上下文词向量(已经转换成向量的词)的加和。Neu1表示隐层向量。

有两种:hierarchical softmax negative sampling

Skip-gram模型:

Skip gram模型词语指示方向与CBOW相反预测概率p(wi|wt) t-c<i<t+c 输出的是w(t+c) ~w(t-c)的概率  使用softmax输出。会计算窗口内两两之间的概率

Skip-gram每个词都表征了上下文的分布skip指在一定窗口内的词都会两两计算概率 即使间隔一些词也会容易识别为相同的短语。

 

Hierarchical softmax:借助分类的概念 对这些词按照类别区分 二叉树:使用二分类近似多分类

Word2vec中使用huffman编码(一定的聚类思想)构造一连串的二分类

Negative sampling:使用one-versus-one近似二分类   采样一些负例  不想把分母中的所有词都算一遍,就采样计算,采样多少就是模型中负例的个数,按照词频对应的概率分布来随机抽样。

GloVe

LDA(Latent Dirichlet Allocation) PLSA(概率模型)  LSA(潜在语义模型)用于生成词向量。这些模型对全局信息应用充分但是对词之间的关联体现不出来,GloVe是一种矩阵分解方法,结合了LFM(Latent Factor Model)只是分解对象变为共现频率的对数,对高低频做了一定的权重调整。Global vectors for word representation

 

 

结论:

  1. word2vec去掉了非线性隐层
  2. huffman相当于做了一定的聚类,越高频计算量越小;
  3. 采用negative sampling、随机梯度算法
  4. 不需要反复迭代
  5. 利用一些编程技巧 指数运算的与计算 高频词亚采样, 方便实行并行化。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值