开始动手训练自己的词向量word2vec

本文所涉及到的所有资料和代码见,github

感谢霍姆格雷特的博文,额,我还是比较这种风格的,好的,现在让我们来训练自己的词向量吧。

1、环境配置

  • 环境:win10 + python3.6
  • 所需工具包:gensim(word2vec)、jieba(中文分词)
  • 以上工具包均用pip install安装

2、语料库说明

哎呀,他用的《诛仙》,我就用《斗罗大陆》,文件见GitHub,也可以换成自己喜欢的文档(如有侵权,请联系作者删除)

3、实验步骤

3.1、文件编码转换

因为文件*“douluo.txt”*原始编码为GBK,整个项目编码为UTF-8,需统一格式。否则直接读取文本将得到乱码。
在这里插入图片描述
在项目中新建一个文件gbk2utf8.py进行编码转换,将编码转为UTF-8,存至一个新文件

def gbk2utf8():
    file_out = open('data/douluo_utf8.txt', 'w', encoding="utf-8")	 # 输出文件路径
    with open('data/douluo.txt', 'r', encoding="GB18030") as file_object:
        for line in file_object:
            line = line.strip()
            file_out.write(line + "\n")
    file_out.close()
    print("end")

所做工作就是解码原始文件,逐句读取,去除空白,在用uft-8编码,写入新的文件‘douluo_uft8.txt’。处理后,一下子舒服了好多。

  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值