词向量评价方法
词向量的目的是通过向量编码来表示单词的含义,一个好的词向量系统中,语义相近的单词间的距离也会越近。因此,将单词的词向量映射到空间坐标系中进行可视化观察,是最简单的词向量表示质量评价方法。
词向量的可视化
可视化中,三维空间绘图较为容易实现,对于高于3个维度的向量要先通过降维算法压缩到3维及以内,然后才便于可视化作图。
由此,词向量可视化具体实现代码如下:
import numpy as np
from sklearn.manifold import TSNE
dim_reduce = TSNE(n_components=2, learning_rate='auto', init='random')
word_embd = np.array([[0, 0, 0], [0, 1, 1], [1, 0, 1], [1, 1, 1]])
word_embd = dim_reduce.fit_transform(word_embd)
print(word_embd)