下载C版本的word2vec
进入文件目录下后,会有一个makefile文件,有了它就可以编译啦
$ cd /home/yinglish/download/word2vec/trunk
$ make
编译完后会生成一些新的文件。
接下来如果要使用word2vec自带的词典,则运行:
$ ./demo-word.sh
它将会去下载数据text8(用空格隔开的英文单词,不包含标点符号,大概1600多万个单词)
如果想用自己的词典训练,则先把词典(我的叫test.txt,是已分词并去除标点符号的评论)放到该目录下,运行:
./word2vec -train test.txt -output vectors.bin