Python并发编程——threading模块，爬虫加速

最新推荐文章于 2023-02-02 23:26:49 发布

PinkGranite

最新推荐文章于 2023-02-02 23:26:49 发布

阅读量244

点赞数 2

分类专栏： python 文章标签： python 并发多线程

本文链接：https://blog.csdn.net/weixin_43860783/article/details/118599885

版权

python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文是对python并发编程中threading模块的学习记录，欢迎感兴趣的朋友们一起交流讨论。

1. 如何创建线程

引入多线程模块

import threading

定义功能函数（需要各个线程执行的方法）

def func_0(args):
	......

def func)1(args):
	......

需要注意的是：各个线程执行的方法不一定相同

创建线程

thread_0 = threading.Thread(target=func, args=(arg_0,...)
# Thread对象创建线程
# target参数指向目标函数，注意是直接传递函数名
# args参数传递函数变量，注意要表示为元组，即使只传递一个变量也要表示为（arg_0,）

线程启动

thread_0.start()

等待线程结束

thread_0.join()
# 如果程序运行过程中关心线程是否结束那么可以采用join()进行等待，并不一定要添加

2.多线程示例（爬虫加速）

import requests
import threading
import time

# 确定需要爬取的页面
urls = [...]

# 定义爬取方法，一次爬取一个页面的内容
def crawl(url):
	r = requests.get(url)
	return r.text

# 定义单线程版本
def single_thread():
	for url in urls:
		print(len(crawl(url))
	print('finish')

# 定义多线程版本
def multi_threads():
	threads = []
	for url in urls:
		threads.append(threading.Thread(target=crawl, args=(url,))
	for thread in threads:
		thread.start()
	for thread in threads:
		thread.joint() # 确认全部执行完毕
	print('finish')

# 运行程序
if __name__ == '__main__':
	start = time.time()
	single_thread()
	print('single_thread costL', time.time()-start)

	start = time.time()
	multi_threads()
	print('multi_threads cost:', time.time()-start)