python 多进程共享变量

最新推荐文章于 2024-05-13 11:27:46 发布

byufeng

最新推荐文章于 2024-05-13 11:27:46 发布

阅读量8.1k

点赞数 1

本文链接：https://blog.csdn.net/xys228280987/article/details/49925251

版权

现在要读取多个数据文件从中抽取数据将结果合并(相当于word count)

方法一是常规的分多线程分别处理数据输出，最后定义一个字典遍历输出文件将结果集合并

方法二是先定义结果集字典，然后多线程处理数据，放入字典的时候加上同步锁

以为方法二会比方法一快的多因为省去了大量的IO，只在合并结果的时候加锁

然而测试之后发现同步锁反而是最大的瓶颈

测试20W数据，抽取某个字段开16线程跑，方法一用了10s，方法二用了55s

这差距也太大了……天

所以还是老老实实放弃多线程同步共享变量把性能太差

python 多线程加锁同步共享变量的代码如下

#!/usr/bin/env python
#-*- coding: utf-8 -*-

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

import MySQLdb
import re
import multiprocessing
import os
import traceback

import jieba
import ConfigParser
import datetime
import json
import logging

def myprocess(num,indir,titles,lock):
		
	try:
		fin = open(indir + os.sep + str(num),'r')
		cnt0 = 0
		for line in fin:
			cnt0 += 1
			if cnt0 %100 == 0:
				print num,cnt0

最低0.47元/天解锁文章

byufeng

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
python 多进程共享变量

现在要读取多个数据文件从中抽取数据将结果合并(相当于word count)方法一是常规的分多线程分别处理数据输出，最后定义一个字典遍历输出文件将结果集合并方法二是先定义结果集字典，然后多线程处理数据，放入字典的时候加上同步锁以为方法二会比方法一快的多因为省去了大量的IO，只在合并结果的时候加锁然而测试之后发现同步锁反而是最大的瓶颈测试20W数据，抽取某
复制链接

扫一扫