python多线程爬取数据
1.在多线程爬取之前我们应该先了解3个概念
程序:就相当于一个应用。
进程:程序运行资源(内存资源)分配的最小单位,一个程序可以有多个进程。
线程:cpu最小的调度单位,必须依赖进程而存在。线程没有独立资源,所有线程共享该进程的全部资源。
注意:线程的划分尺度比进程更小
2.为什么多进程和多线程可以提高程序的运行速度?
-
提高程序的运行速度的第一种方法:提高cpu的利用率。
解决的方式: cpu不用休息就可以做到。 现在我们的程序有一个线程。cpu就只处理他。 如果在程序中遇到:阻塞。一旦阻塞了,cpu就休息了。休息的这段时间,就浪费了cpu的资源。 有两种方式可以阻塞:1.time.sleep() 2.遇到io 多线程:多个任务。cpu会在这多个任务之间切换,如果其中一个线程阻塞了,cpu不会休息,会处理其他线程。 -
提高程序运行速度第二种方法:增加cpu,让每个cpu处理一个任务。
cpu的多核的。---利用cpu的多核进行解决。---cpu每一个核处理一个进程。--用多进程去处理。 -
并发和并行

3.python中的threading模块
- 多线程的开启方法
(1)使用threading模块的方法 t = threading.Thread( target=线程执行的任务(方法)名字, args = 执行方法的参数,是一个元组 )---创建线程 t.start()---启动线程 (2)使用自定类的形式来创建线程 利用面向对象继承的思想。 子类继承父类,子类拥有父类非私有的任何资源。 程序在运行时,当子类调用一个方法或者属性的时候,先去子类中找,如果找不到,就一层层向上,取父类中找。(继承具有传递性) 自定义线程类: a、继承threading.Thread--拥有功能 b、保证父类的init方法能够被调用。 如何调用父类的init方法: super().__init__() threading.Thread.__init__(self) - 线程的名称:可以帮我们测试时那个线程做的哪件事。
- 查看线程的数量
threading.enumerate()–可以查看当前进程中的线程的数量 - 线程的执行顺序是混乱的。原因是:线程的状态决定的。
用类取创建线程的步骤:
1、继承Thread
2、重写run方法
3、实例化线程类,就相当于创建一个线程,用这个对象调用start()方法就可以启动这个线程
4、如果自定义线程类要实现init方法,必须先调动父类的init方法。
本文详细解析Python中多线程爬虫的工作原理,包括线程、进程的概念,以及如何通过多线程和多进程提升爬虫效率。介绍了threading模块的使用方法,自定义线程类的创建步骤,帮助读者掌握高效爬虫技巧。

被折叠的 条评论
为什么被折叠?



