词嵌入（二）分布式表示

最新推荐文章于 2023-03-27 21:30:00 发布

weixin_56336619

最新推荐文章于 2023-03-27 21:30:00 发布

阅读量703

点赞数

分类专栏：自然语言处理深度学习

本文链接：https://blog.csdn.net/weixin_56336619/article/details/116306023

版权

自然语言处理同时被 2 个专栏收录

20 篇文章 1 订阅

订阅专栏

深度学习

13 篇文章 0 订阅

订阅专栏

与one-hot编码表示技术相对应的是分布式表示分布式假说（Distributional
Hypothesis):上下文中相似的词其语义也相似 ——词的语义由其上下文决定

基于分布式假说的词表示方法，根据建模方式分为三类——基于矩阵的分布表示、基于聚类的分布表示、基于神经网络的分布表示

1.基于矩阵的分布表示，构建词-上下文矩阵
上下文：
文档：即词-文档矩阵
上下文的每个词：即词-词矩阵
ngrams：即词-n元组矩阵

矩阵中的每个元素为词和上下文共现的次数，通常使用tf-idf、取对数等方式加权和平滑

然后使用SVD、NMF等手段对高维稀疏矩阵进行分解降维，得到低维稠密矩阵

构建步骤：选取上下文；统计共现次数，即矩阵中元素的值，tfidf权重；矩阵分解，SVD，PCA；代表模型：LSA、GloVe

2.基于聚类的分布表示通过聚类手段构建词与其上下文之间的关系代表模型：布朗聚类

3.基于神经网络的分布表示 Word2Vec（只有两层的浅层神经网络模型）

为什么要用高维向量表示词语 /

“在文章《闲聊：神经网络与深度学习》中，笔者已经提到过，建模环节中最重要的一步是特征提取，在自然语言处理中也不例外。在自然语言处理中，最核心的一个问题是，如何把一个句子用数字的形式有效地表达出来？如果能够完成这一步，句子的分类就不成问题了。显然，一个最初等的思路是：给每个词语赋予唯一的编号1,2,3,4…，然后把句子看成是编号的集合，比如假设1,2,3,4分别代表“我”、“你”、“爱”、“恨”，那么“我爱你”就是[1,3, 2]，“我恨你”就是[1, 4, 2]。这种思路看起来有效，实际上非常有问题，比如一个稳定的模型会认为3跟4是很接近的，因此[1,3, 2]和[1, 4, 2] 应当给出接近的分类结果，但是按照我们的编号，3跟4所代表的词语意思完全相反，分类结果不可能相同。因此，这种编码方式不可能给出好的结果。”

weixin_56336619

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
词嵌入（二）分布式表示

One-hot编码仅仅将词语符号化，丢失语义信息，且维度灾难。与one-hot编码表示技术相对应的是分布式表示分布式假说（Distributional Hypothesis):上下文中相似的词其语义也相似——词的语义由其上下文决定基于分布式假说的词表示方法，根据建模方式分为三类——基于矩阵的分布表示、基于聚类的分布表示、基于神经网络的分布表示1.基于矩阵的分布表示，构建词-上下文矩阵上下文：文档：即词-文档矩阵上下文的每个词：即词-词矩阵ngrams：即词-n元组矩阵矩阵中的每个元素为词
复制链接

扫一扫