本文所涉及到的所有资料和代码见,github
感谢霍姆格雷特的博文,额,我还是比较这种风格的,好的,现在让我们来训练自己的词向量吧。
1、环境配置
- 环境:win10 + python3.6
- 所需工具包:gensim(word2vec)、jieba(中文分词)
- 以上工具包均用pip install安装
2、语料库说明
哎呀,他用的《诛仙》,我就用《斗罗大陆》,文件见GitHub,也可以换成自己喜欢的文档(如有侵权,请联系作者删除)
3、实验步骤
3.1、文件编码转换
因为文件*“douluo.txt”*原始编码为GBK
,整个项目编码为UTF-8,需统一格式。否则直接读取文本将得到乱码。
在项目中新建一个文件gbk2utf8.py
进行编码转换,将编码转为UTF-8,存至一个新文件
def gbk2utf8():
file_out = open('data/douluo_utf8.txt', 'w', encoding="utf-8") # 输出文件路径
with open('data/douluo.txt', 'r', encoding="GB18030") as file_object:
for line in file_object:
line = line.strip()
file_out.write(line + "\n")
file_out.close()
print("end")
所做工作就是解码原始文件,逐句读取,去除空白,在用uft-8编码,写入新的文件‘douluo_uft8.txt’。处理后,一下子舒服了好多。