Python自动化小技巧09——获取文件编码方式

最新推荐文章于 2025-03-23 00:00:00 发布

阡之尘埃

最新推荐文章于 2025-03-23 00:00:00 发布

阅读量3.9k

点赞数 4

分类专栏： Python自动化小技巧文章标签：自动化 python 编码方式 chardet

本文链接：https://blog.csdn.net/weixin_46277779/article/details/127085932

版权

Python自动化小技巧专栏收录该内容

29 篇文章

订阅专栏

有时候我们打开csv文件会发现乱码：

这是因为excel打开csv文件的时候用的编码方式不对，如果我们使用记事本打开csv文件会看到是正常的，而且下面的角标会告诉我们编码方式：

这个文件的编码是uft-8。

当然还有很多别的编码方式比如‘gbk’，‘ASCII ’等等，如果文件的来源不统一，并且数量很多的时候我们不能很方便用记事本去一一查看，就应该使用Python来进行编码方式的获取。

代码演示

本次主要依赖这个包：chardet，它可以探测文件的编码方法，并且给出把握概率。

这里打开3个文件，为了区别，我使用了csv，xlsx，txt三种不同的文件，然后获取他们的编码方式。

#查看编码
import chardet
with open ('waimai_10k.csv','rb') as f:
    f1=f.read()
print(chardet.detect(f1))

with open ('stopwords.txt','rb') as f:
    f3=f.read()
print(chardet.detect(f3)['encoding'])

with open ('外卖.xlsx','rb') as f:
    f2=f.read()
print(chardet.detect(f2).get('encoding'))

运行结果