目前的效果比较呆 还不是很好用
试着边学边改吧
加了点处理句子的东西
import gensim
import numpy as np
import jieba
import networkx as nx
import re
from sklearn.metrics.pairwise import cosine_similarity
#使用维基百科语料库训练
'''
大致过程:清洗数据
jieba分词
CBOW模型 维度100 窗口5
简单试了几个词的距离 效果只能说一般
'''
FILE_PATH = 'wikipedia_zh_word2vec.bin'
model = gensim.models.KeyedVectors.load_word2vec_format(FILE_PATH,binary=True)
file = open('123.txt', encoding='utf8')
fstr = file.read()
flen = len(fstr)
sentence = []
'''
按。!?切成句子
再消除掉,、()《》;[数字]
'''
sentence_cut = ['。', '!', '?']