【Python进阶】Python与文件操作：压缩、解压

最新推荐文章于 2024-09-01 16:57:39 发布

m 哆哆.ღ

最新推荐文章于 2024-09-01 16:57:39 发布

阅读量1k

点赞数 20

分类专栏： python 文章标签： python 服务器

本文链接：https://blog.csdn.net/weixin_44800376/article/details/141459437

版权

python 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

1、Python中的文件压缩与解压

1.1 基本压缩概念与算法简介

1.1.1 常见压缩格式（zip, tar, gzip等）

在计算机存储和传输过程中，压缩技术扮演着重要角色。常见的压缩格式有ZIP、TAR、GZIP等。ZIP是一种流行的数据压缩格式，常用于打包多个文件；TAR本身并不压缩数据，但通常与GZIP、BZIP2或XZ等压缩工具结合使用，形成tar.gz或tar.xz等形式；GZIP主要用于单个文件的压缩，广泛应用于Linux系统的日志文件和其他文本文件。

1.2 使用内置库进行压缩与解压

3.2.1 zipfile模块处理.zip文件

Python标准库中的zipfile模块提供了对ZIP文件的支持，它可以创建新的ZIP压缩包，添加文件到现有的ZIP文件中，以及解压ZIP文件至指定目录。

● 创建压缩包：

import zipfile

# 创建一个新的ZIP压缩包
with zipfile.ZipFile('archive.zip', 'w') as myzip:
    myzip.write('file1.txt')
    myzip.write('folder/file2.txt')

# 将目录及其内容压缩到ZIP文件
def zip_dir(directory):
    with zipfile.ZipFile('dir_archive.zip', 'w', zipfile.ZIP_DEFLATED) as z:
        for root, dirs, files in os.walk(directory):
            for file in files:
                z.write(os.path.join(root, file))

● 解压ZIP文件：

with zipfile.ZipFile('archive.zip', 'r') as myzip:
    myzip.extractall('output_folder')  # 解压到指定目录

1.2.2 tarfile模块处理.tar及tar.gz文件

tarfile模块则适用于处理TAR格式的归档文件，它可以创建、读取、修改和提取TAR文件，包括gzip压缩的.tar.gz或bz2压缩的.tar.bz2。

● 创建tar归档文件：

import tarfile

with tarfile.open('archive.tar', 'w') as tar:
    tar.add('file1.txt')
    tar.add('folder')

# 创建gzip压缩的tar文件
with tarfile.open('archive.tar.gz', 'w:gz') as tar:
    tar.add('file_to_compress.txt')

● 解压tarball文件至指定目录：

with tarfile.open('archive.tar.gz', 'r:gz') as tar:
    tar.extractall(path='output_folder')

1.3 第三方库的应用举例

1.3.1 使用gzip和bz2模块处理.gz和.bz2文件

对于单个文件的GZIP压缩和解压，Python自带了gzip模块：

● 压缩文件：

import gzip

with open('original.txt', 'rb') as f_in:
    with gzip.open('compressed.txt.gz', 'wb') as f_out:
        f_out.writelines(f_in)

# 解压GZIP文件
with gzip.open('compressed.txt.gz', 'rb') as f_in:
    with open('decompressed.txt', 'wb') as f_out:
        f_out.writelines(f_in)

而对于BZIP2压缩格式，Python同样提供了bz2模块：

● 使用bz2压缩与解压：

import bz2

# 压缩文件
with open('input.txt', 'rb') as source:
    compressed_data = bz2.compress(source.read())

with open('output.txt.bz2', 'wb') as dest:
    dest.write(compressed_data)

# 解压BZ2文件
with open('output.txt.bz2', 'rb') as source:
    decompressed_data = bz2.decompress(source.read())

with open('decompressed.txt', 'wb') as dest:
    dest.write(decompressed_data)

1.3.2 使用lzma模块处理.xz文件

Python内建的lzma模块支持LZMA/XZ格式的压缩与解压，其高效性使其在某些场合受到青睐：

● 使用lzma压缩与解压：

import lzma

# 压缩文件
with open('input.txt', 'rb') as source:
    compressed_data = lzma.compress(source.read())

with open('output.txt.xz', 'wb') as dest:
    dest.write(compressed_data)

# 解压XZ文件
with open('output.txt.xz', 'rb') as source:
    decompressed_data = lzma.decompress(source.read())

with open('decompressed.txt', 'wb') as dest:
    dest.write(decompressed_data)

通过以上实例，读者可以直观地了解Python中如何使用内置库和第三方库进行各种格式的文件压缩与解压操作，从而有效地管理和优化存储空间，提升数据传输效率。

2、进阶技巧与最佳实践

2.1 并行或异步处理大文件和大量文件

2.1.1 使用多线程或多进程加速文件操作

在处理大型文件或批量文件时，串行操作可能会导致性能瓶颈。Python提供了多线程和多进程机制，可以显著提高文件操作的效率。

多线程处理： Python的threading模块允许开发者创建和管理线程，尽管Python全局解释器锁（GIL）限制了线程在CPU密集型任务上的并发能力，但在I/O密集型任务如文件读写中，多线程仍然能带来一定的性能提升。

import threading

def process_file(file_path):
    with open(file_path, 'r') as file:
        # 对文件进行处理...
        pass

file_list = ['file1.txt', 'file2.txt', 'file3.txt']  # 假设这是待处理的文件列表
threads = []

for file in file_list:
    thread = threading.Thread(target=process_file, args=(file,))
    thread.start()
    threads.append(thread)

for thread in threads:
    thread.join()  # 等待所有线程完成

多进程处理： Python的multiprocessing模块更适合处理CPU密集型任务，但对于涉及磁盘I/O的大文件操作也能提高效率，因为它可以绕过GIL限制。

import multiprocessing

def process_file(file_path):
    with open(file_path, 'r') as file:
        # 对文件进行处理...
        pass

if __name__ == '__main__':
    file_list = ['file1.txt', 'file2.txt', 'file3.txt']
    pool = multiprocessing.Pool(processes=multiprocessing.cpu_count())

    pool.map(process_file, file_list)
    pool.close()
    pool.join()

2.1.2 异步IO在文件操作中的应用

对于更高级别的并行性和非阻塞I/O，Python 3引入了异步I/O模型，可通过asyncio模块实现。尽管异步I/O在文件操作上的优势不如网络请求明显，但在处理大量小文件或者等待磁盘响应时也可以提升效率。

import asyncio

async def process_file(file_path):
    async with aiofiles.open(file_path, 'r') as file:
        # 异步读取并处理文件内容...
        content = await file.read()
        # 对content进行处理...

async def main():
    file_list = ['file1.txt', 'file2.txt', 'file3.txt']
    tasks = [process_file(file) for file in file_list]
    await asyncio.gather(*tasks)

asyncio.run(main())

通过以上例子，可以看到Python中利用多线程、多进程和异步IO可以有效提高文件操作的效率，尤其是在面对大数据量和大规模文件处理时。在实际项目中，应根据任务特点和系统环境选择最合适的并发策略。

2.2 其他进阶技巧

● 缓冲区读写：合理设置缓冲区大小可以提高读写速度，减少磁盘I/O次数。
● 内存映射文件：利用mmap模块可以将文件映射到内存中，实现高效的文件访问。
● 文件分片处理：对于超大文件，可以通过切片的方式分段读取和处理，降低单次操作所需内存。

这些进阶技巧在实践中有助于解决高性能文件处理需求，

3、错误处理与异常捕获

3.1 常见文件操作错误与解决方案

在Python进行文件操作时，正确处理可能出现的错误和异常至关重要，这有助于确保程序在面临意外状况时仍能保持稳定运行。

3.1.1 文件不存在错误

当尝试打开一个不存在的文件时，Python会引发FileNotFoundError异常。以下是如何优雅地处理这一情况的例子：

try:
    with open('non_existent_file.txt', 'r') as file:
        content = file.read()
except FileNotFoundError:
    print("文件 'non_existent_file.txt' 不存在。")

3.1.2 权限不足错误

当用户试图执行超出其权限范围的文件操作（如读取受保护文件或删除他人拥有的文件），Python会抛出PermissionError。解决这类问题通常需要调整文件权限或者以具有足够权限的用户身份运行程序。

try:
    os.remove('/protected/file.txt')
except PermissionError:
    print("权限不足，无法删除 '/protected/file.txt'。请检查文件权限。")

3.1.3 文件已被其他进程占用

当文件正在被另一个进程或程序使用时，尝试对其进行读写可能会触发OSError（Windows系统下可能表现为PermissionError或WindowsError）。此时，可以采取重试机制或通知用户文件正被占用。

import time

while True:
    try:
        with open('in_use.txt', 'w') as file:
            file.write('Some content...')
            break  # 如果成功，跳出循环
    except IOError:
        print("文件 'in_use.txt' 正在被另一个进程使用，将在5秒后重试...")
        time.sleep(5)

3.1.4 其他常见错误

此外，还有如NotADirectoryError（试图将文件操作应用于目录而不是文件）、IsADirectoryError（试图打开一个目录当作文件处理）等。针对不同类型的错误，应当针对性地捕获并处理：

try:
    os.remove('directory_not_a_file')
except NotADirectoryError:
    print("删除失败，'directory_not_a_file' 是一个目录而非文件。")
except IsADirectoryError:
    print("'directory_not_a_file' 是一个目录，无法直接删除。")
except Exception as e:
    print(f"发生了未知错误：{e}")

通过熟练掌握Python的异常处理机制，开发者可以编写更加健壮、鲁棒性强的文件操作代码，有效应对各种潜在的运行时问题，从而提升整体程序质量。在实践中，不仅要关注错误的捕获和恢复，还要考虑适当的日志记录，以便于排查和定位问题根源。

4、实战案例分析

4.1 自动备份文件系统

在本章节中，我们将运用前面章节所学的知识点，设计一个简单的自动化文件备份系统。假设我们需要每天定时备份指定目录下的所有文件到一个压缩包中，并保存到另一位置。

import os
import zipfile
import datetime

def backup_files(src_dir, dest_dir, archive_name):
    # 获取当前日期时间，用于生成备份文件名
    now = datetime.datetime.now()
    backup_file = f"{archive_name}_{now.strftime('%Y%m%d%H%M%S')}.zip"

    # 定义压缩包全路径
    dest_file_path = os.path.join(dest_dir, backup_file)

    # 使用zipfile模块创建一个ZipFile对象，准备写入文件
    with zipfile.ZipFile(dest_file_path, 'w', zipfile.ZIP_DEFLATED) as backup_zip:
        # 使用os.walk遍历源目录下的所有文件和子目录
        for root, dirs, files in os.walk(src_dir):
            # 遍历当前目录下的文件
            for file in files:
                # 获取相对路径
                rel_path = os.path.relpath(os.path.join(root, file), src_dir)
                # 添加文件到压缩包
                backup_zip.write(os.path.join(root, file), arcname=rel_path)

    print(f"文件备份成功，备份文件位于：{dest_file_path}")

# 示例调用
src_dir = "/path/to/source/directory"
dest_dir = "/path/to/backup/directory"
archive_name = "my_backup"

backup_files(src_dir, dest_dir, archive_name)

4.2 大型日志文件高效读取与处理

在处理大型日志文件时，一次性加载整个文件到内存往往不可行。因此，我们将展示如何使用迭代器按行读取大型日志文件，进而进行高效处理。

def process_large_log_file(log_file_path):
    # 使用带buffering=1的open函数以行缓冲模式打开文件，减少内存消耗
    with open(log_file_path, 'r', buffering=1) as log_file:
        for line in log_file:
            # 这里仅做演示，实际可以根据日志格式解析并处理每一行
            process_line(line)

def process_line(line):
    # 假设我们只关心含有特定关键字的日志条目
    if "ERROR" in line:
        print(f"发现错误日志：{line.strip()}")

# 示例调用
large_log_file = "/path/to/large/logfile.log"
process_large_log_file(large_log_file)

以上两个实战案例展示了Python文件操作在实际项目中的应用，通过结合不同的文件操作函数和模块，我们可以构建出功能完善且高效的文件处理系统。同时，这也体现了Python在数据管理、系统维护等方面的强大功能和灵活性。在今后的学习和实践中，

m 哆哆.ღ

关注

20
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
【Python进阶】Python与文件操作：压缩、解压

在计算机存储和传输过程中，压缩技术扮演着重要角色。常见的压缩格式有ZIP、TAR、GZIP等。ZIP是一种流行的数据压缩格式，常用于打包多个文件；TAR本身并不压缩数据，但通常与GZIP、BZIP2或XZ等压缩工具结合使用，形成tar.gz或tar.xz等形式；GZIP主要用于单个文件的压缩，广泛应用于Linux系统的日志文件和其他文本文件。
复制链接

扫一扫

专栏目录