NLP生成word2vec预训练模型步骤及UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte xxxx in position x的bug解决

最新推荐文章于 2021-10-27 09:25:01 发布

xzyt

最新推荐文章于 2021-10-27 09:25:01 发布

阅读量570

点赞数 1

分类专栏： bug&solve

本文链接：https://blog.csdn.net/weixin_43696892/article/details/109177532

版权

bug&solve 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.分词（网上说无需去停用词，直接分词就可以，我试了一下效果还行，就没有去停用词），将分词后的文本用utf-8编码存储到.txt文件中。
2.生成并保存模型，参考资料：https://blog.csdn.net/qq_35273499/article/details/79098689。但是这份资料里有一个问题，就是关于编码的问题。在加载分词后的文本时，对于中文，一定一定要用utf-8编码！即sentences = word2vec.Text8Corpus(u’mytrain_fenci_withsp.txt’)，这里的u表示unicode编码，其包含三种编码，分别为utf-8，utf-16以及utf-32。若用原文中写的“r”进行编码，那么就会出现UnicodeDecodeError: ‘utf-8’ codec can’t decode byte xxxx in position x: invalid start byte的bug。
3.加载已保存的模型。保存模型参考资料：https://blog.csdn.net/HUSTHY/article/details/103164934#%E6%A8%A1%E5%9E%8B%E4%BF%9D%E5%AD%98%E5%92%8C%E5%8A%A0%E8%BD%BD，这里注意保存和加载.bin模型的时候binary参数都要选择True，原文没有加，需要加上。
4.简单使用模型，参考资料：https://blog.csdn.net/python3_i_know/article/details/86626696

保存模型
方式一
model.save(‘mylaw.model’)
方式二
model.wv.save_word2vec_format(‘文件名.vector’)
model.wv.save_word2vec_format(‘文件名.bin’, binary=True)

加载模型
model = gensim.models.KeyedVectors.load_word2vec_format(‘文件名.bin’, binary=True)

xzyt

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
NLP生成word2vec预训练模型步骤及UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte xxxx in position x的bug解决

1.分词（网上说无需去停用词，直接分词就可以，我试了一下效果还行，就没有去停用词），将分词后的文本用utf-8编码存储到.txt文件中。2.生成并保存模型，参考资料：https://blog.csdn.net/qq_35273499/article/details/79098689。但是这份资料里有一个问题，就是关于编码的问题。在加载分词后的文本时，对于中文，一定一定要用utf-8编码！即sentences = word2vec.Text8Corpus(u’mytrain_fenci_withsp.txt
复制链接

扫一扫