Unsupervised learning:word embedding
无监督学习:词嵌入
摘要:这节课通过介绍word embedding,说明什么是无监督学习以及word embedding的两种实现方法,简单介绍了一些运用word embedding方法的实际应用。,
目录
一、什么是word embedding
用向量表示word的方法:
1-of-N encoding
缺陷:没有办法区分单词之间的联系。
改进方法:可以增加词分类。
问题又来了,不同的词分类也存在一定的联系,这该如何改进?
Word embedding:把每个word向量都投影到一个多维度体系中。不同的维度具有不同的含义
Generating word vector是无监督的:向神经网络输入一个单词,输出为word embedding对应的向量。(只有输出,没有输出的样子)
原理:理解一个单词意思是通过上下文语境
二、两种实现方法:
1.count based
如果有两个单词wi和wj常常出现在同一篇文章,那么它们的vector可能是非常接近的
2.prediction based
训练的神经网络,输入是wi-1的1-of-n encoding向量ÿ