python 中文iso8859-1编码转utf8编码

最新推荐文章于 2023-05-11 15:07:21 发布

等你牵我的手

最新推荐文章于 2023-05-11 15:07:21 发布

阅读量4.1k

点赞数 1

文章标签： python 乱码

原文链接：https://blog.csdn.net/kelindame/article/details/75014485

版权

python 中文iso8859-1编码转utf8编码

在项目中使用wget 进行ftp下载文件时，由于ftp下载默认的是ascii模式，下载的文件编码是iso8859-1。
在这里插入图片描述
在python3中直接使用open函数的话，需要设置编码，不然会报错。

open("08M0063639_20170710.txt","r",encoding='iso8859-1')

这样做，假如文本是数字或者字母的时候，没有什么影响。但文本是中文的时候，获取的数据是iso8859-1编码的，进行数据操作时会出现乱码。
所以要将数据转化为utf8编码

uft_str = str.encode("iso-8859-1").decode('gbk').encode('utf8').decode('utf8')

先将文本转化成gbk编码，然后在从gbk编码变成utf8编码。
原理：

uft8编码的文本可以用iso8859-1的编码表示，但是反过来不行。iso8859-1是单字节编码，而utf8是定长编码，从uft8转化成iso8859-1相当于是高精度转化成低精度，造成精度丢失，所以不可逆。根本原因是因为uft8中文，在iso8859-1没有匹配的位置。

而gbk是不定长编码，英文数字的字符编码规则跟iso8859-1是一样的，所以gbk是兼容iso8859-1编码的，这两者可以相互转换。

转载自：https://blog.csdn.net/kelindame/article/details/75014485

等你牵我的手

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
python 中文iso8859-1编码转utf8编码

python 中文iso8859-1编码转utf8编码在项目中使用wget 进行ftp下载文件时，由于ftp下载默认的是ascii模式，下载的文件编码是iso8859-1。在python3中直接使用open函数的话，需要设置编码，不然会报错。open("08M0063639_20170710.txt","r",encoding='iso8859-1')这样做，假如文本是数字或者字母的时候，没有什么影响。但文本是中文的时候，获取的数据是iso8859-1编码的，进行数据操作时会出现乱码。所以要将
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。