一、多线程爬虫
(一)程序、进程和线程。
程序:就相当于一个应用。
进程:程序运行资源(内存资源)分配的最小单位,一个程序可以有多个进程。
线程:cpu最小的调度单位,必须依赖进程而存在。线程没有独立资源,所有线程共享该进程的全部资源。
线程的划分尺度比进程更小。
(二)为什么多进程和多线程可以提高程序的运行速度?
1、提高程序的运行速度的第一种方法:提高cpu的利用率。
解决的方式:cpu不用休息就可以做到。
现在我们的程序有一个线程。cpu就只处理他。
如果在程序中遇到:阻塞。一旦阻塞了,cpu就休息了。休息的这段时间,就浪费了cpu的资源。
有两种方式可以阻塞:time.sleep()
遇到io
多线程:多个任务。cpu会在这多个任务之间切换,如果其中一个线程阻塞了,cpu不会休息,会处理其他线程。
2、提高程序运行速度第二种方法:增加cpu,让每个cpu处理一个任务。
cpu的多核的。---利用cpu的多核进行解决。---cpu每一个核处理一个进程。--用多进程去处理。
3、并发和并行。
《操作系统原理》
《编译原理》
《数据结构和算法》
全局性解释锁:python多任务处理效率并不好。
cpython--c语言实现的编译器---默认。
jpython---java实现的
pypython--python语言实现的。
区块链:公共记事账本。去中心化的数据库----分布式数据库。
go语言很火:天生支持并发。
(三)什么是多线程:程序中包含多个并行执行流。
二、python中的threading模块
一个功能的实现不外乎就两种:调用别人接口,自己丰衣足食
1、多线程的开启方法
(1)使用threading模块的方法
t = threading.Thread(
target=线程执行的任务(方法)名字,
args = 执行方法的参数,是一个元组
)---创建线程
t.start()---启动线程
(2)使用自定类的形式来创建线程
利用面向对象继承的思想。
子类继承父类,子类拥有父类非私有的任何资源。
程序在运行时,当子类调用一个方法或者属性的时候,先去子类中找,如果找不到,就一层层向上,取父类中找。(继承具有传递性)
自定义线程类:
a、继承threading.Thread--拥有功能
b、保证父类的init方法能够被调用。
如何调用父类的init方法:
super().__init__()
threading.Thread.__init__(self)
用类取创建线程的步骤:
1、继承Thread
2、重写run方法
3、实例化线程类,就相当于创建一个线程,用这个对象调用start()方法就可以启动这个线程
4、如果自定义线程类要实现init方法,必须先调动父类的init方法。
2、线程的名称:可以帮我们测试时那个线程做的哪件事。
线程对象.name查看:默认是Thread-1,Thread-2....
自定名称:其实就是给self.name赋值
4、查看线程的数量
threading.enumerate()--可以查看当前进程中的线程的数量
5、线程的执行顺序是混乱的。原因是:线程的状态决定的。
三、多线程和多进程
1、功能:
多线程和多进程都能做到多任务。
2、定义:
进程:程序运行资源(内存资源)分配的最小单位,一个程序可以有多个进程。
线程:cpu最小的调度单位,必须依赖进程而存在。线程没有独立资源,所有线程共享该进程的全部资源。
3、区别:
(1)关系:一个程序至少有一个进程,一个进程至少有一个线程.
(2)有无资源:进程拥有独立资源,线程依赖于进程,没有独立资源,所有该进程的线程共享所在进程的所有资源。
(3)划分尺度:线程的划分尺度小于进程(资源比进程少),使得多线程程序并发性更高。
4、优缺点:
线程:线程的执行开销小,但不利于资源的管理和保存。
进程:多个进程之间相互独立,不利于进程间信息交互。进程拥有独立资源。
在设计数据交互频繁的场景,多进程比多进程更加适合。
在并发程度上,多进程比多线程的效率更高。
5、如何选择:应该按照实际开发情况进行选择。