【Python爬虫】—— 多线程基本原理

最新推荐文章于 2023-04-10 13:33:29 发布

Giyn

最新推荐文章于 2023-04-10 13:33:29 发布

阅读量1k

点赞数 8

分类专栏：【Python爬虫知识】文章标签： python 多线程网络

本文链接：https://blog.csdn.net/weixin_45961774/article/details/106530146

版权

多线程的含义

进程可以理解为是一个可以独立运行的程序单位。

比如：

打开一个浏览器，就开启了一个浏览器进程。
打开一个文本编辑器，就开启了一个文本编辑器进程。

一个进程中可以同时处理很多事情。

比如：

浏览器中可以在多个选项卡中打开多个页面，有的页面在播放音乐，有的页面在播放视频，有的网页在播放动画，可以同时运行，互不干扰。

为什么能同时做到同时运行这么多的任务呢？

任务对应着线程的执行。

进程是线程的集合，是由一个或多个线程构成的。
线程是操作系统进行运算调度的最小单位，是进程中的一个最小运行单元。

并发和并行

并发（concurrency）

指同一时刻只能有一条指令执行，但多个线程的对应的指令被快速轮换地执行，宏观上看起来多个线程在同时运行，但微观上只是这个处理器在连续不断地、在多个线程之间切换和执行。

在单处理器和多处理器系统中都可以存在，仅靠一个核，就可以实现并发。

并行（parallel）

指同一时刻有多条指令在多个处理器上同时执行，并行必须要依赖于多个处理器，不论宏观上还是微观上，多个线程都是在同一时刻一起执行的。

只能在多处理器系统中存在，如果计算机处理器只有一个核，就不可能实现并行。

多线程适用场景

在一个程序进程中，有些操作是比较耗时或者需要等待的。

比如：

等待数据库的查询结果的返回
等待网页结果的响应

使用单线程：
处理器必须要等到这些操作完成之后才能继续往下执行其他操作，而这个线程在等待的过程中，处理器明显是可以来执行其他操作的。

使用多线程：
处理器就可以在某个线程等待时，去执行其他的线程，从而从整体上提高执行效率。

网络爬虫就是一个非常典型的例子
爬虫在向服务器发起请求之后，有一段时间必须要等待服务器的响应返回，这种任务就属于 IO 密集型任务。

但不是所有的任务都是 IO 密集型任务
有一种任务叫作计算密集型任务，也可以称之为 CPU 密集型任务，就是任务的运行一直需要处理器的参与。

这时如果开启多线程，一个处理器从一个计算密集型任务切换到切换到另一个计算密集型任务上，处理器依然不会停下来，始终会忙于计算。

如果任务不全是计算密集型任务，可以使用多线程来提高程序整体的执行效率，尤其对于网络爬虫这种 IO 密集型任务来说，使用多线程会大大提高程序整体的爬取效率。

Python 实现多线程

在 Python 中，实现多线程的模块叫作 threading，是 Python 自带的模块。

使用 threading 实现多线程的方法：

Thread 直接创建子线程
首先可以使用 Thread 类来创建一个线程，创建时需要指定 target 参数为运行的方法名称，如果被调用的方法需要传入额外的参数，则可以通过 Thread 的 args 参数来指定。

import threading
import time


def target(second):
    print(f'Threading {threading.current_thread().name} is running')
    print(f'Threading {threading.current_thread().name} sleep {second}s')
    time.sleep(second)
    print(f'Threading {threading.current_thread().name} is ended')


print(f'Threading {threading.current_thread().name} is running')

for i in

最低0.47元/天解锁文章

Giyn

关注

8
点赞
踩
13

收藏

觉得还不错? 一键收藏
2
评论
【Python爬虫】—— 多线程基本原理

多线程的含义进程可以理解为是一个可以独立运行的程序单位。比如：打开一个浏览器，就开启了一个浏览器进程。打开一个文本编辑器，就开启了一个文本编辑器进程。一个进程中可以同时处理很多事情。比如：浏览器中可以在多个选项卡中打开多个页面，有的页面在播放音乐，有的页面在播放视频，有的网页在播放动画，可以同时运行，互不干扰。为什么能同时做到同时运行这么多的任务呢？任务对应着线程的执行。进程是线程的集合，是由一个或多个线程构成的。线程是操作系统进行运算调度的最小单位，是进程中的一个最小
复制链接

扫一扫