python多进程踩的一些坑

背景:需要对数据集做一些预处理,了解到python多进程 用的multiprocessing.Pool处理

def deal_data():
    start = time.time()
    path1 = r'./mini-5/train'
    path2 = r'./mini-5/val'
    img_paths = get_file_path(path1, path2)
    print("all:", len(img_paths))

    # 1.
    avi_cpu = os.cpu_count()-30
    print('there is {} cpu'.format(avi_cpu))
    pool = Pool(avi_cpu) # 当前可用cpu数量-10

    pool.map(process_image, img_paths)

    # res = []
    # for img in img_paths:
    #     r = [pool.apply_async(process_image, (img,))]
    #     res.append(r)
    #2.该情况处理进程直接跳过

    # pool = multiprocessing.Pool()
    # cpus = multiprocessing.cpu_count()
    # print('there is {} cpu'.format(cpus))
    # # 任务切分
    # splits = list(divide(cpus, img_paths))
    # for split in splits:
    #     pool.apply_async(process_image, args=(split,))
    pool.close()
    pool.join()

    end = time.time()
    print("deal data cost:", end - start)

问题:

在处理第一五分类flower数据集的时候一切正常,处理进程结束后,主进程正常进行下一步操作

在处理第二个数据时候(我从imagenet中抽出的5个类共两千多张图片),处理完之后,多进程总会在最后卡主,基本上都处理完了,就是退不出多进程,无法进行后面的操作,起初以为是因为图片较大的原因,因为我的处理函数是计算密集型 有不少for循环,但我在处理之前先进行resize还是跳不出,就像进入了死锁一样。

待解决:
pool.map
pool.map_async
pool.apply
pool.apply_async
以上都试过

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值