词嵌入(二)分布式表示

  • 与one-hot编码表示技术相对应的是分布式表示 分布式假说(Distributional
    Hypothesis):上下文中相似的词其语义也相似 ——词的语义由其上下文决定

    基于分布式假说的词表示方法,根据建模方式分为三类——基于矩阵的分布表示、基于聚类的分布表示、基于神经网络的分布表示

    1.基于矩阵的分布表示,构建词-上下文矩阵
    上下文:
    文档:即词-文档矩阵
    上下文的每个词:即词-词矩阵
    ngrams:即词-n元组矩阵

    矩阵中的每个元素为词和上下文共现的次数,通常使用tf-idf、取对数等方式加权和平滑

    然后使用SVD、NMF等手段对高维稀疏矩阵进行分解降维,得到低维稠密矩阵

    构建步骤:选取上下文;统计共现次数,即矩阵中元素的值,tfidf权重;矩阵分解,SVD,PCA; 代表模型:LSA、GloVe

    2.基于聚类的分布表示 通过聚类手段构建词与其上下文之间的关系 代表模型:布朗聚类

    3.基于神经网络的分布表示 Word2Vec(只有两层的浅层神经网络模型)

    为什么要用高维向量表示词语 /

“在文章《闲聊:神经网络与深度学习》中,笔者已经提到过,建模环节中最重要的一步是特征提取,在自然语言处理中也不例外。在自然语言处理中,最核心的一个问题是,如何把一个句子用数字的形式有效地表达出来?如果能够完成这一步,句子的分类就不成问题了。显然,一个最初等的思路是:给每个词语赋予唯一的编号1,2,3,4…,然后把句子看成是编号的集合,比如假设1,2,3,4分别代表“我”、“你”、“爱”、“恨”,那么“我爱你”就是[1,3, 2],“我恨你”就是[1, 4, 2]。这种思路看起来有效,实际上非常有问题,比如一个稳定的模型会认为3跟4是很接近的,因此[1,3, 2]和[1, 4, 2] 应当给出接近的分类结果,但是按照我们的编号,3跟4所代表的词语意思完全相反,分类结果不可能相同。因此,这种编码方式不可能给出好的结果。”

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值