Python并发编程——threading模块,爬虫加速

本文是对python并发编程中threading模块的学习记录,欢迎感兴趣的朋友们一起交流讨论。

1. 如何创建线程

  • 引入多线程模块
import threading
  • 定义功能函数(需要各个线程执行的方法)
def func_0(args):
	......

def func)1(args):
	......

需要注意的是:各个线程执行的方法不一定相同

  • 创建线程
thread_0 = threading.Thread(target=func, args=(arg_0,...)
# Thread对象创建线程
# target参数指向目标函数,注意是直接传递函数名
# args参数传递函数变量,注意要表示为元组,即使只传递一个变量也要表示为(arg_0,)
  • 线程启动
thread_0.start()
  • 等待线程结束
thread_0.join()
# 如果程序运行过程中关心线程是否结束那么可以采用join()进行等待,并不一定要添加

2.多线程示例(爬虫加速)

import requests
import threading
import time

# 确定需要爬取的页面
urls = [...]

# 定义爬取方法,一次爬取一个页面的内容
def crawl(url):
	r = requests.get(url)
	return r.text

# 定义单线程版本
def single_thread():
	for url in urls:
		print(len(crawl(url))
	print('finish')

# 定义多线程版本
def multi_threads():
	threads = []
	for url in urls:
		threads.append(threading.Thread(target=crawl, args=(url,))
	for thread in threads:
		thread.start()
	for thread in threads:
		thread.joint() # 确认全部执行完毕
	print('finish')

# 运行程序
if __name__ == '__main__':
	start = time.time()
	single_thread()
	print('single_thread costL', time.time()-start)

	start = time.time()
	multi_threads()
	print('multi_threads cost:', time.time()-start)

为什么爬虫可以使用multi thread进行加速呢?

  • 爬虫是网络连接下载拉取的技术,而网络下载属于高IO负载,容易受到IO能力限制。而python的多线程技术是非常适合解决IO-Bound类问题的。
  • 关于多python中多进程,多线程与多协程的理解可以参考我的另一篇博文: 关于python多进程,多线程与多协程的理解与选择
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值