(连载)词向量的理解——词嵌入向量(word embedding)

本文介绍了如何通过n-gram语言模型和神经网络训练词向量,解决one-hot向量无法体现词的相似性的缺陷。通过设定固定长度的向量,词的相似性和关系得以体现,词嵌入向量在处理大量数据后能有效刻画词间关系,尽管其可解释性较差。最后,文章提出这种思路的发展和应用前景。
摘要由CSDN通过智能技术生成

文章均从个人微信公众号“ AI牛逼顿”转载,文末扫码,欢迎关注!


上篇文章的结尾指出了one-hot向量有重大缺陷,缺陷是啥?

此种编码使得任意两个向量的乘积都为0

也就是说,虽然可以算距离,但是距离都一样,还是没法体现出词的相似性。比如:“爸”与“爹”,是同义词;“大”与“小”是反义词。按照上面的编码方式,词的相似性没法加以区分。

 

如何解决这个问题?

如果我们给定几个评判标准,然后每个词都按照这几个标准给出一个值,把这些值组成向量,用来刻画词语,会怎么样呢?

那么这三个词的向量表示分别为:

                                                             番茄[0.91, 0.85, 0.23]

                                                             草莓[0.86, 0.84, 0.19]

                                                             花生[0.42, 0.28, 0.94]

显然,这种向量表示要比one-h

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值