python自动化办公(二)

本文介绍了Python的shutil库用于文件和目录的操作,如复制、移动、删除和压缩,以及glob和fnmatch模块进行文件查找。同时,文章讲解了如何使用hashlib计算文件的MD5值以检测重复文件。
摘要由CSDN通过智能技术生成

上接python自动化办公(一)

文件和目录操作

使用shutil库

shutil库也是Python标准库,它可以处理文件、文件夹、压缩包,能实现文件复制、移动、压缩、解压缩等功能。

函数说明
copy复制文件和权限
copy2复制文件和元数据
copyfile将一个文件的内容复制到另外一个文件当中
copyfileobj将一个文件的内容复制到另外一个文件当中
copytree复制整个文件目录
move递归地移动文件或目录,原文件或目录就不存在了
rmtree删除一个目录以及目录内的所有内容
make_archive创建压缩包并返回文件路径
unpack_archive解压缩文件

复制文件是比较复杂的事情。文件主要由两部分组成,一部分是文件的数据,另一部分是用来描述该文件的元数据。元数据指文件的访问时间、修改时间、作者等信息。所以复制文件时要弄清楚是仅复制内容还是同时要复制元数据。

# shutil.copyfile(A,B)仅仅是复制A文件的内容到B文件。A和B必须是文件,不可以是目录。B文件得有写入权限
shutil.copyfile('./python_zen.txt','./copy01.txt')
#手动新建文件夹copyfiles
#复制文件到某个文件夹
shutil.copy('./copy01.txt','./copyfiles/')
#整体复制文件夹
shutil.copytree('./copyfiles/','./copyfiles01/')
#移动文件
shutil.move('./copyfiles01/copy01.txt','./copyfiles/copy02.txt')
#整体移动目录,移动目录本身
shutil.move('./copyfiles01/','./copyfiles/')

在os模块里,os.rmdir方法和os.removedirs方法都要求被删除的目录非空,否则会报错。而shutil.rmtree方法不管目录是否非空,都直接删除整个目录。

#删除整个目录
shutil.rmtree('./copyfiles/copyfiles01/')
#删除单个文件
import os
os.unlink('./copy01.txt')
#压缩
#参数分别为(保存)压缩包路径及名称,格式,要压缩文件的路径
shutil.make_archive('./压缩包','zip',base_dir='./copyfiles/')

更多参数可以直接网上搜,这应该够用了

#解压
#压缩包路径及名称,解压至指定文件夹
shutil.unpack_archive('./压缩包.zip','./解压文件')

文件查找

glob

glob是Python自带的一个文件操作相关模块,用它可以查找符合条件的文件。

import glob
#匹配条件,*匹配任意个字符,?匹配单个字符,[]匹配指定范围字符如[0-9]
glob.glob('*.txt')

在这里插入图片描述

fnmatch

fnmatch也是Python自带的库,是专门用来进行文件名匹配的模块,使用它可以完成更为复杂的文件名匹配。

#找出目标文件夹里所有结尾带数字的文件
import os,fnmatch
for foldName,subfolders,filenames in os.walk('./'):
    for filename in filenames:
        if fnmatch.fnmatch(filename,'*[0-9].*'):
            print(filename)

在这里插入图片描述
fnmatchcase和fnmatch函数类似,只是fnmatchcase函数强制区分字母大小写。

以上两个函数都返回True或者False,filter函数则返回匹配的文件名列表。

fileList=[]
for foldName,subfolders,filenames in os.walk('./'):
    for filename in filenames:
        fileList.append(filename)
print('fileList:\n',fileList)
print(fnmatch.filter(fileList,'*[0-9].*'))

在这里插入图片描述

hashlib

如果要找出重复文件,重复文件可能有不同的文件名,不能简单用文件名和文件大小来判断。从科学角度,最简单的办法就是通过MD5来确定两个文件是不是一样的。
Python自带的hashlib库里提供了获取文件MD5值的方法。

import hashlib
m=hashlib.md5()
f=open('./python_zen.txt','rb')
m.update(f.read())
f.close()
md5_value=m.hexdigest()
print(md5_value)

在这里插入图片描述

#文件树状图
import os
def filetree(path,depth):
    if depth==0:
        print('文件夹:'+path)
    for file in os.listdir(path):
        print('|    '*depth+'+--'+file)
        directory=path+'/'+file
        if os.path.isdir(directory):
            filetree(directory,depth+1)
filetree('./',0)

在这里插入图片描述

# 手动随意创建一个空文件夹,删除空文件夹
import os,shutil
path='./'
for file in os.listdir(path):
    directory=path+file
    if os.path.isdir(directory) and len(os.listdir(directory))==0:
        print(directory,os.listdir(directory))
        shutil.rmtree(directory)
# 删除重复文件
import os,shutil,hashlib
path='./重复文件'
list=[]
print('重复文件文件夹内容:')
for foldName,subfolders,filenames in os.walk(path):
    for filename in filenames:
        print(foldName,filename)
print('重复文件为:')
for file in os.listdir(path):
    fileName=path+'/'+file
    m=hashlib.md5()
    with open(fileName,'rb') as mfile:
        m.update(mfile.read())
    md5_value=m.hexdigest()
    if md5_value in list:
        print(fileName)
        os.unlink(fileName)#删除重复文件
    else:
        list.append(md5_value)

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据攻城小狮子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值