在Python实操中，关于编码格式运用的理解

最新推荐文章于 2024-10-15 10:20:47 发布

And-207

最新推荐文章于 2024-10-15 10:20:47 发布

阅读量176

点赞数 1

文章标签：学习 pycharm ide python

本文链接：https://blog.csdn.net/weixin_71239317/article/details/125241347

版权

本文探讨Python中编码的相关概念，包括文件编码和解释器编码，以及在实际操作中遇到的不同编码格式文件的读取问题，如UnicodeDecodeError错误、乱码现象及其原因分析，并提供了相应的解决方案。

摘要由CSDN通过智能技术生成

一、简述编码的相关概念
编码的概念分为两种：文件编码和解释器编码。
1、其中文件编码就是一个数据在计算机的底层到底用哪种二进制形式来进行存储，如ASCII、Unicode、UTF-8和GBK码等等。
2、其中解释器编码就是解释器以哪种编码格式来解析整个文件，如ASCII、Unicode、UTF-8和GBK码等等。
因此本地文件以哪种编码格式来进行存储，我们就指定解释器以哪种编码格式来解析文件即可，进而避免出现乱码的问题。
https://blog.csdn.net/a2011480169/article/details/71250396
'''
二、利用open()函数读取文件数据和直接在PYthon环境中打开文件读取数据的差别
1、当我们2使用open()函数去读取文件时，若没去指定【解析编码】，则PYthon对【txt文本文件】中数据的解析编码会默认为GBK，而对【py文件】等其他文件的解析编码会默认为UTF-8。
2、当我们没使用open()函数去读取文件时，而是把PYthon当做文件编辑器，直接在PYthon中打开【txt文本文件】/【py文件】等其他文件的话，PYthon3.0解释器默认按UTF-8编码格式读取文件，
PYthon2.0解释器默认按ASCII编码格式读取文件。
'''
三、Python实操中读取不同编码格式的文件所遇到的问题及原因分析
在PYthon实操中，我首先创建了两个文本文件【a-gbk.txt】和【b-utf8.txt】，文件数据都包含中英文，前者存储的编码格式为GBK，后者存储的