文章均从个人微信公众号“ AI牛逼顿”转载,文末扫码,欢迎关注!
上篇文章的结尾指出了one-hot向量有重大缺陷,缺陷是啥?
也就是说,虽然可以算距离,但是距离都一样,还是没法体现出词的相似性。比如:“爸”与“爹”,是同义词;“大”与“小”是反义词。按照上面的编码方式,词的相似性没法加以区分。
如何解决这个问题?
如果我们给定几个评判标准,然后每个词都按照这几个标准给出一个值,把这些值组成向量,用来刻画词语,会怎么样呢?
那么这三个词的向量表示分别为:
番茄[0.91, 0.85, 0.23]
草莓[0.86, 0.84, 0.19]
花生[0.42, 0.28, 0.94]
显然,这种向量表示要比one-h