解决python文本读取编码不匹配问题

ALisa*

已于 2022-02-26 16:30:43 修改

阅读量506

点赞数

文章标签： python 开发语言后端

于 2021-10-25 19:27:14 首次发布

本文链接：https://blog.csdn.net/weixin_45842420/article/details/120958275

版权

无论是文本读取还是语料库载入都会遇到编码不匹配问题，这是因为python默认的编码模式和文本编码模式不匹配造成。
网上的方法很多，我这里介绍一种最简单的方法。以我遇到的错误情况为例。

载入语料库发生错误

from nltk.corpus import BracketParseCorpusReader

corpus_root = "E:\\nlp_test1"
file_pattern = '.*'
ptb = BracketParseCorpusReader(corpus_root, file_pattern)
ptb.fileids()
ptb.raw("199801.txt")

但由于199801.txt编码方式为GB3212，运行出现错误提示为:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc2 in position 23: invalid continuation byte

这里我们只需要把txt文档变成utf-8的编码格式即可。不需要写复杂的格式转换代码，只需要找一份编码格式为utf-8的文档，复制199801的内容到新文件里面，就完成了格式转换，新格式的文件命名为1998.txt

from nltk.corpus import BracketParseCorpusReader

corpus_root = "E:\\nlp_test1"
file_pattern = '.*'
ptb = BracketParseCorpusReader(corpus_root, file_pattern)
ptb.fileids()
ptb.raw("1998.txt")

运行即可成功。

ALisa*

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
解决python文本读取编码不匹配问题

解决python文本读取编码不匹配问题无论是文本读取还是语料库载入都会遇到编码不匹配问题，这是因为python默认的编码模式和文本编码模式不匹配造成。网上的方法很多，我这里介绍一种最简单的方法。以我遇到的错误情况为例。载入语料库发生错误from nltk.corpus import BracketParseCorpusReadercorpus_root = "E:\\nlp_test1"file_pattern = '.*'ptb = BracketParseCorpusReader(cor
复制链接

扫一扫