批量修改txt（或其他）文件编码为utf-8

Jenny_Yolo

已于 2022-04-19 09:10:29 修改

阅读量9.3k

点赞数 5

分类专栏： Python基础文章标签： python

于 2022-04-18 23:07:03 首次发布

原文链接：https://blog.csdn.net/qq_41251963/article/details/116377863?spm=1001.2014.3001.5506

版权

Python基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

批量修改txt（或其他）文件编码方式为utf-8

这两天敲代码批量处理txt文件时一直出现报错：

UnicodeDecodeError: ‘utf-8’ codec can’t decode byte 0xbc in position 2: invalid start byte
通过查找资料最终确定原因有两个：
（1）txt文件的编码方式不是utf-8，这需要特别写一个程序，将所有的txt文件的编码方式都改为utf-8
（2）代码的编码方式不是utf-8，在程序文件加一段代码即可：# -- coding: utf-8 --
批量修改txt文件编码为utf-8的代码如下：

# 批量修改txt的编码方式为utf-8
# 注意，该.py文件需放在txt文件所在文件夹里运行才可以

import os
from chardet import detect
fileSuffix = 'txt'
fns = []
filedir = os.path.join(os.path.abspath('.'), "")
    # os.path.abspath() 获取指定文件或目录的绝对路径
file_name = os.listdir(os.path.join(os.path.abspath('.'), ""))
    # os.listdir() 用于返回一个由文件名和目录名组成的列表，即返回当前路径（文件夹）下所有文件的绝对路径列表
for fn in file_name:
    if fn.endswith(fileSuffix):
        # endswith() 判断字符串是否以指定后缀结尾
        fns.append(os.path.join(filedir, fn))
for fn in fns:
    with open(fn, 'rb+') as fp:
        content = fp.read()
        if len(content)==0:
            continue
        else:
            codeType = detect(content)['encoding']
            content = content.decode(codeType, "ignore").encode("utf8")
            fp.seek(0)
            fp.write(content)
            print(fn, "：已修改为utf8编码")