![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
bug&solve
xzyt
这个作者很懒,什么都没留下…
展开
-
NLP生成word2vec预训练模型步骤及UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte xxxx in position x的bug解决
1.分词(网上说无需去停用词,直接分词就可以,我试了一下效果还行,就没有去停用词),将分词后的文本用utf-8编码存储到.txt文件中。 2.生成并保存模型,参考资料:https://blog.csdn.net/qq_35273499/article/details/79098689。但是这份资料里有一个问题,就是关于编码的问题。在加载分词后的文本时,对于中文,一定一定要用utf-8编码!即sentences = word2vec.Text8Corpus(u’mytrain_fenci_withsp.txt原创 2020-10-20 11:21:19 · 570 阅读 · 0 评论 -
使用load_weights()时出现Shapes (m, a) and (n, a) are incompatible的bug
使用load_weights()时出现Shapes (m, a) and (n, a) are incompatible的bug 这个问题是由于emebedding matrix的维度在训练时和预测时不一致而导致的。 通常情况下,我们使用emebedding matrix之前,会先形成一个字典,这里我们暂时把这个字典叫做word_index。如果代码的作者没有考虑周全,那么就会导致训练和预测的时候会得到两个不同的word_index(因为训练时和预测时用的数据不一样),从而使得emebedding matr原创 2020-09-29 14:53:40 · 860 阅读 · 0 评论