上一期,我们已经安装好了gensim,那今天主要是讲用它来干什么。
前面谈到我主要是想在Python下进行算法研究,但是我们已经得到了每条帖子的向量,那就要有个工具能够读取这个文件。
gensim的models.word2vec模块正好解决了这个,第一次看到时候感觉所有问题都解决了,结果就是一个大坑。
命令很简单,如下所示:
可以读取文件过程中报错,说是不少其中有编码不是utf-8,不能识别。
紧接着我又重头做了一遍,还是不行,还是这个错误,非常之郁闷。
后来想到,以前中文切词,切出来的词总有那种莫名其妙的字符,可是又找不到办法剔除掉,只能忍痛放弃了这个工具。
可是,还是要读取向量啊,不然怎么做后面的分类了,最后就到了word2vec里面的distance程序,稍加改动就可以读取帖子向量。
当然还有Java的读取向量的程序,由ansj编写,网址如下:
https://github.com/NLPchina/Word2VEC_java
程序写得比较清晰,看过一遍,没有实验过,大家可以尝试下。