本文是对python并发编程中threading模块的学习记录,欢迎感兴趣的朋友们一起交流讨论。
1. 如何创建线程
- 引入多线程模块
import threading
- 定义功能函数(需要各个线程执行的方法)
def func_0(args):
......
def func)1(args):
......
需要注意的是:各个线程执行的方法不一定相同
- 创建线程
thread_0 = threading.Thread(target=func, args=(arg_0,...)
# Thread对象创建线程
# target参数指向目标函数,注意是直接传递函数名
# args参数传递函数变量,注意要表示为元组,即使只传递一个变量也要表示为(arg_0,)
- 线程启动
thread_0.start()
- 等待线程结束
thread_0.join()
# 如果程序运行过程中关心线程是否结束那么可以采用join()进行等待,并不一定要添加
2.多线程示例(爬虫加速)
import requests
import threading
import time
# 确定需要爬取的页面
urls = [...]
# 定义爬取方法,一次爬取一个页面的内容
def crawl(url):
r = requests.get(url)
return r.text
# 定义单线程版本
def single_thread():
for url in urls:
print(len(crawl(url))
print('finish')
# 定义多线程版本
def multi_threads():
threads = []
for url in urls:
threads.append(threading.Thread(target=crawl, args=(url,))
for thread in threads:
thread.start()
for thread in threads:
thread.joint() # 确认全部执行完毕
print('finish')
# 运行程序
if __name__ == '__main__':
start = time.time()
single_thread()
print('single_thread costL', time.time()-start)
start = time.time()
multi_threads()
print('multi_threads cost:', time.time()-start)
为什么爬虫可以使用multi thread进行加速呢?
- 爬虫是网络连接下载拉取的技术,而网络下载属于高IO负载,容易受到IO能力限制。而python的多线程技术是非常适合解决IO-Bound类问题的。
- 关于多python中多进程,多线程与多协程的理解可以参考我的另一篇博文: 关于python多进程,多线程与多协程的理解与选择