AI之嵌入技术(Embedding techniques)

嵌入技术 (Embedding techniques)

正如我们前面所说的,TFM和TFIDF数值矩阵主要是根据单词在文本中出现的频率而得到的,它没有考虑到词语之间的相似性。所说的前面的文章是这个:文本数据挖掘(Text Mining).

为了克服这些方法的局限性,Google组提出了一种新的嵌入方法,而他们提出的技术在我看来是属于革命性的技术。

在2013年,Google组发表了第一篇关于Word2Vec的论文。随后被科研工作者广泛的应用在各个领域之中,因为它确实带来了前所未有的优点和便利。

Word2Vec是一种神经网络模型,它可以把文本中的词语映射到数值空间中,而词语成了有意义的数值以后,我们就可以很方便的对其来进行各种操作,用于各种模型之中。

比如网上流传的著名的 “King - Man + Woman = Queen”,之所以可以对词语计算是因为,通过Word2Vec技术,他们被转化成了有意义的空间中的数值向量。有了数值向量以后,我们当然就可以进行加减乘除的运算了。从这一点上来讲,Word2Vec技术真的是一个重要的发明和创新

图片来自

(https://www.needpix.com/photo/336827/wordcloud-tagcloud-cloud-text-tag-internet-web-online-website)

当然,通过Word2Vec技术而得到向量以后,我们就可以量化词语之间的相似性。比如可以计算常用的余弦Cosine相似性, 它主要测量了两个向量之间的角度。

我们通过Word2Vec技术而得到词语的嵌入向量之后,可以对得到的向量进行分析来研究事物之间的相似性。而很多时候使用过Word2Vec是为了对数据进行预处理,把得到的嵌入向量作为新的机器学习或者深度学习模型的输入。

比如,我们从朋友圈里面得到大量的文字信息,通过过Word2Vec嵌入技术,得到嵌入向量,而这些向量可以作为预测模型的输入,然后来预测一个新的朋友用户在未来一年里买新车的概率

基于Word2Vec技术的流行,很多好的包packages也早就已经出来,可以很方便的调用已经写好的函数。

比如,可以使用Python里面的gensim,里面已经有写好的函数Word2Vec(),我们只需要定义自己需要的参数就行了。建议自己找一些简单的句子,运行一遍Word2Vec(),就可以看到这里面的奥妙。

请关注作者公众号,一位留美AI女博士:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值