- 原版word2vec 提供了一个compute-accuracy的程序,用来计算准确率。 计算时用到了questions-words.txt 这个文件,这个文件内容如下
所以,word2vec 计算准确率(包括gensim也是),其实是测试 一个简单的词汇类比任务的准确率。
如果用其他语言的预料,或者是在推荐系统中使用word2vec,这个compute-accuracy就不适用了。当然,也可以自己指定 类似的词汇类别 任务来衡量。
具体衡量词向量的表现,还是通过多种具体任务来进行的,如 命名体识别(NER), 句法分析(Parsing) 等。
参考
https://stackoverflow.com/questions/41714773/calculate-accuracy-of-word2vec-model-in-python
https://www.zhihu.com/question/37489735/answer/73026156