csv 文件读写乱码问题的解决方法

最新推荐文章于 2024-05-11 13:08:44 发布

阳阳7

最新推荐文章于 2024-05-11 13:08:44 发布

阅读量1.5k

点赞数

分类专栏：数据分析 python 文章标签： csv 乱码 python excel os

本文链接：https://blog.csdn.net/weixin_45520375/article/details/111352823

版权

数据分析同时被 2 个专栏收录

11 篇文章 3 订阅

订阅专栏

python

8 篇文章 0 订阅

订阅专栏

首先导入三个模块


import pandas as pd  
import os 
import chardet

chardet 模块用于得到文件的编码格式，pandas 按照这个格式读取，然后保存为xlsx格式。
获取filename文件的编码格式：

def get_encoding(filename):
    """
    返回文件编码格式
    """
    with open(filename,'rb') as f:
        return chardet.detect(f.read())['encoding']

保存为utf-8编码xlsx格式文件，支持csv, xls, xlsx 格式的文件乱码处理。需要注意，如果读入文件为csv格式，保存时要使用xlsx格式：

def to_utf8(filename):
    """
    保存为 to_utf-8
    """
    encoding = get_encoding(filename)
    ext = os.path.splitext(filename)
    if ext[1] =='.csv':
        if 'gb' in encoding or 'GB' in encoding:
            df = pd.read_csv(filename,engine='python',encoding='GBK')
        else:
            df = pd.read_csv(filename,engine='python',encoding='utf-8')
        df.to_excel(ext[0]+'.xlsx')
    elif ext[1]=='.xls' or ext[1] == '.xlsx':
        if 'gb' in encoding or 'GB' in encoding:
            df = pd.read_excel(filename,encoding='GBK')
        else:
            df = pd.read_excel(filename,encoding='utf-8')
        df.to_excel(filename)
    else:
        print('only support csv, xls, xlsx format')

上面函数实现单个文件转化，下面batch_to_utf8 实现目录 path 下所有后缀为ext_name文件的批量乱码转化：

def batch_to_utf8(path,ext_name='csv'):
    """
    path下，后缀为 ext_name的乱码文件，批量转化为可读文件
    """
    for file in os.listdir(path):
        if os.path.splitext(file)[1]=='.'+ext_name:
            to_utf8(os.path.join(path,file))

最终调用

if __name__ == '__main__':
  batch_to_utf8('.') 
  # 对当前目录下的所有csv文件保存为xlsx格式,utf-8编码的文件

阳阳7

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
csv 文件读写乱码问题的解决方法

首先导入三个模块import pandas as pd import os import chardetchardet 模块用于得到文件的编码格式，pandas 按照这个格式读取，然后保存为xlsx格式。获取filename文件的编码格式：def get_encoding(filename): """ 返回文件编码格式 """ with open(filename,'rb') as f: return chardet.detect(f.rea
复制链接

扫一扫

专栏目录