开始动手训练自己的词向量word2vec

最新推荐文章于 2023-06-02 15:56:04 发布

自由的小白

最新推荐文章于 2023-06-02 15:56:04 发布

阅读量3.7k

点赞数 1

分类专栏：人工智能入门自然语言处理 # gensim 文章标签：词向量动手 word2vec

本文链接：https://blog.csdn.net/zzzzlei123123123/article/details/105130428

版权

本文所涉及到的所有资料和代码见，github

感谢霍姆格雷特的博文，额，我还是比较这种风格的，好的，现在让我们来训练自己的词向量吧。

文章目录

1、环境配置
2、语料库说明
3、实验步骤
4、扩展知识

1、环境配置

环境：win10 + python3.6
所需工具包：gensim（word2vec）、jieba（中文分词）
以上工具包均用pip install安装

2、语料库说明

哎呀，他用的《诛仙》，我就用《斗罗大陆》，文件见GitHub，也可以换成自己喜欢的文档（如有侵权，请联系作者删除）

3、实验步骤

3.1、文件编码转换

因为文件*“douluo.txt”*原始编码为GBK,整个项目编码为UTF-8，需统一格式。否则直接读取文本将得到乱码。
在这里插入图片描述
在项目中新建一个文件gbk2utf8.py进行编码转换，将编码转为UTF-8，存至一个新文件

def gbk2utf8():
    file_out = open('data/douluo_utf8.txt', 'w', encoding="utf-8")	 # 输出文件路径
    with open('data/douluo.txt', 'r', encoding="GB18030") as file_object:
        for line in file_object:
            line = line.strip()
            file_out.write(line + "\n")
    file_out.close()
    print("end")