zipfile解压文件时,无法正确解压中文字符

使用下面这种方式,解压出来都是乱码,显示不出正确的中文字符

import zipfile
with zipfile.ZipFile('../zip/归档.zip', 'r') as zip_ref:
  temp_dir = 'temp_datas'
  zip_ref.extractall(temp_dir)

在这里插入图片描述

使用decode方法,解码目标使用utf-8,使用ignore忽略无法解码的字符

import zipfile
import os

def unzip(zip_path, extract_path):
  with zipfile.ZipFile(zip_path, 'r') as zip_ref:
    for file_info in zip_ref.infolist():
      # 使用原始的文件名
      filename_raw = file_info.filename
      # 使用 UTF-8 编解码文件名
      filename_decoded = filename_raw.encode('cp437').decode('utf-8', 'ignore')
      # 构建解压路径
      extract_filepath = os.path.join(extract_path, filename_decoded)
      # 创建目录(如果不存在)
      os.makedirs(os.path.dirname(extract_filepath), exist_ok=True)
      # 解压文件
      with zip_ref.open(file_info, 'r') as file_in_zip, open(extract_filepath, 'wb') as extracted_file:
        extracted_file.write(file_in_zip.read())

zip_path = '../zip/归档.zip'
extract_path = '../temp_datas'
unzip(zip_path, extract_path)

在这里插入图片描述

以下是我的需求逻辑:解压用户上传的文件,并进行分类存储。供参考
get_file_dir这个方法看用户上传的是什么类型的文件,返回一个目录文件名

import os
import shutil
from pathlib import Path
import zipfile
import streamlit as st

def zip_fiels_upload(zip_file):
  # 获取脚本所在目录
  script_dir = os.path.dirname(os.path.abspath(__file__))
  temp_dir = os.path.join(script_dir, 'temp_datas')
  with zipfile.ZipFile(zip_file, 'r') as zip_ref:
    # 排除特殊系统文件夹
    valid_files = [info for info in zip_ref.infolist() if '__MACOSX/' not in info.filename]
    # 是否含有文件夹
    nested_directories = any('/' in file_info.filename for file_info in valid_files)
    if nested_directories:
      st.warning(':red[压缩包文件格式错误,请将所有文件都放在一级目录下]')
    else:
      for file_info in valid_files:
        # 使用原始的文件名
        filename_raw = file_info.filename
        # 使用 UTF-8 编解码文件名
        filename_decoded = filename_raw.encode('cp437').decode('utf-8', 'ignore')
        # 构建解压路径
        extract_filepath = os.path.join(temp_dir, filename_decoded)
        # 创建目录(如果不存在)
        os.makedirs(os.path.dirname(extract_filepath), exist_ok=True)
        # 解压文件
        with zip_ref.open(file_info, 'r') as file_in_zip, open(extract_filepath, 'wb') as extracted_file:
          extracted_file.write(file_in_zip.read())
          get_files_content(temp_dir)

# 根据临时目录,移动文件到对应的目录下
def get_files_content(temp_dir):
  for file_name in os.listdir(temp_dir):
    file_path = os.path.join(temp_dir, file_name) # 要移动的文件路径
    file_type = Path(file_name).suffix.lower()
    target_subdir = get_file_dir(file_type) # 要保存在哪个目录下
    if target_subdir:
      target_full_path = os.path.join(project_dir, target_subdir, file_name) # 完整的存储目录
      shutil.move(file_path, target_full_path) # 移动文件
      shutil.rmtree(temp_dir) # 删除临时目录
      # 将分类好的列表保存起来
      if file_name not in st.session_state.files_list[target_subdir]:
        st.session_state.files_list[target_subdir].append(file_name)
    else:
      st.warning(f'无法识别文件 "{file_name}" 的类型或没有对应的子目录。')

这里我忽略了系统文件夹,不需要解压

在这里插入图片描述

  • 7
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在使用zipfile解压包含中文名的文件,可能会出现乱码的情况。这是因为在zip标准,对文件名的编码不是使用unicode,而是根据系统的默认字符集来进行编码。而zipfile模块在检测文件标志,只支持cp437和utf-8编码,而Windows系统使用的是gbk编码。 为了解决这个问题,有两种方法可以尝试。 第一种方法是更改zipfile模块的源代码。具体方法是在Python安装目录下找到lib文件夹下的zipfile.py文件,然后将该文件的第1374行的代码修改为`filename=filename.decode('cp437')`。这样可以将文件名从cp437编码解码为unicode编码,避免了乱码问题。 第二种方法是使用第三方库来解决乱码问题,例如使用unzip库。unzip库兼容了更多的字符编码,可以正确处理包含中文名的文件。你可以使用unzip库的相关方法来解压文件,确保文件名不会出现乱码。 通过以上两种方法,你可以成功解决zipfile解压中文名乱码的问题,保持文件名的正确显示。解压后的目录结构应该是正确的,中文文件名也不会出现乱码。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [解决PythonZipFile解压文件中文乱码的问题](https://blog.csdn.net/qq_21076851/article/details/122752196)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* [zipfile解压路径中文乱码问题](https://blog.csdn.net/drjiug/article/details/129537331)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值