python文件去重之递归去重

# -*- coding:utf-8 -*-

import os
import hashlib
import time
import sys


# 搞到文件的MD5
def get_ms5(filename):
    m = hashlib.md5()
    mfile = open(filename, "rb")
    m.update(mfile.read())
    mfile.close()
    md5_value = m.hexdigest()
    return md5_value

# 搞到文件的列表
def get_recursion_file(path):
    recursion_list = []
    for dirpath, dirnames, filenames in os.walk(path):
        for filename in filenames:
            recursion_list.append(os.path.join(dirpath, filename))
            print(os.path.join(dirpath, filename))
    return recursion_list


def get_urllist():
    base = r'F:\img\\'
    list = get_recursion_file(base)
    return list


# 主函数
if __name__ == '__main__':
    md5list = []
    urllist = get_urllist()
    print("test1")
    for a in urllist:
        md5 = get_ms5(a)
        if (md5 in md5list):
            os.remove(a)
            print("重复:%s" % a)
        else:
            md5list.append(md5)

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值