python-os模块和hashlib模块

最新推荐文章于 2020-11-19 23:16:39 发布

little_zozo

最新推荐文章于 2020-11-19 23:16:39 发布

阅读量157

点赞数 1

分类专栏： python os 文章标签： python os

本文链接：https://blog.csdn.net/weixin_46995523/article/details/106111447

版权

python 同时被 2 个专栏收录

18 篇文章 3 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

获取目前所在目录：

import os
os.getcwd()

def walk(dirname):
	for name in os.listdir(dirname):
		path = os.path.join(dirname,name)
		
		if os.path.isfile(path): #判断该路径是否为一个正常的文件
			print(path)
		else: #如果该路径不是文件，则继续递归
			walk(path)

查找重复文件：

思路：可以利用md5算法，计算出每个文件的密文，再进行比较；因为如果两个文件的md5加密结果一致，那他们很有可能就是重复文件、文件内容相同。

import hashlib
import os

dic = dict()
def duplicate(dirname):
	for name in os.listdir(dirname):
		path = os.path.join(dirname,name)

		if os.path.isfile(path):
			if os.path.splitext(path)[1] == '.txt': #判断是否为txt格式的文件
				text = open(path,'rb')
				hl = halishlib.md5() #md5加密
				hl.update(text.read())
				hash_code = hl.hexdigest() #转为十六进制
				text.close()
				md5 = str(hash_code).lower() #统一转为小写字母，方便之后的比较
				if len(md5) != 0: #如果md5不为空，则加到字典中，key为路径，value为md5密文
					dic[path] = md5
		else:
			duplicate(path)
#调用duplicate函数
duplicate('/Users/lyuhuanyi/Desktop')

val = dict() # 创建新字典

for key,value in dic.items(): #遍历所有txt格式的文件
	if value not in val: #判断该md5密文是否在val中存在
			val[value] = [key] # val字典：key为md5密文，value为路径，而且是list类型
	else:
		val[value].append(key) 

if i,j in val.items():
	if len(j) > 1: #判断val字典中，是否有value的长度大于1，大于1代表有重复的md5
		print(j)