AI之嵌入技术（Embedding techniques)

算法channel

于 2020-02-09 20:28:36 发布

阅读量882

点赞数 1

嵌入技术（Embedding techniques)

正如我们前面所说的，TFM和TFIDF数值矩阵主要是根据单词在文本中出现的频率而得到的，它没有考虑到词语之间的相似性。所说的前面的文章是这个：文本数据挖掘（Text Mining).

为了克服这些方法的局限性，Google组提出了一种新的嵌入方法，而他们提出的技术在我看来是属于革命性的技术。

在2013年，Google组发表了第一篇关于Word2Vec的论文。随后被科研工作者广泛的应用在各个领域之中，因为它确实带来了前所未有的优点和便利。

Word2Vec是一种神经网络模型，它可以把文本中的词语映射到数值空间中，而词语成了有意义的数值以后，我们就可以很方便的对其来进行各种操作，用于各种模型之中。

比如网上流传的著名的 “King - Man + Woman = Queen”，之所以可以对词语计算是因为，通过Word2Vec技术，他们被转化成了有意义的空间中的数值向量。有了数值向量以后，我们当然就可以进行加减乘除的运算了。从这一点上来讲，Word2Vec技术真的是一个重要的发明和创新。

图片来自

（https://www.needpix.com/photo/336827/wordcloud-tagcloud-cloud-text-tag-internet-web-online-website）

当然，通过Word2Vec技术而得到向量以后，我们就可以量化词语之间的相似性。比如可以计算常用的余弦Cosine相似性，它主要测量了两个向量之间的角度。

我们通过Word2Vec技术而得到词语的嵌入向量之后，可以对得到的向量进行分析来研究事物之间的相似性。而很多时候使用过Word2Vec是为了对数据进行预处理，把得到的嵌入向量作为新的机器学习或者深度学习模型的输入。

比如，我们从朋友圈里面得到大量的文字信息，通过过Word2Vec嵌入技术，得到嵌入向量，而这些向量可以作为预测模型的输入，然后来预测一个新的朋友用户在未来一年里买新车的概率。

基于Word2Vec技术的流行，很多好的包packages也早就已经出来，可以很方便的调用已经写好的函数。

比如,可以使用Python里面的gensim，里面已经有写好的函数Word2Vec()，我们只需要定义自己需要的参数就行了。建议自己找一些简单的句子，运行一遍Word2Vec()，就可以看到这里面的奥妙。

请关注作者公众号，一位留美AI女博士：

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。