我们通常所说的协程Coroutine其实是corporate routine的缩写,直接翻译为协同的例程,一般我们都简称为协程。
在linux系统中,线程就是轻量级的进程,而我们通常也把协程称为轻量级的线程即微线程。
进程和协程
下面对比一下进程和协程的相同点和不同点:
相同点:
我们都可以把他们看做是一种执行流,执行流可以挂起,并且后面可以在你挂起的地方恢复执行,这实际上都可以看做是continuation,关于这个我们可以通过在linux上运行一个hello程序来理解:
shell进程和hello进程:
- 开始,shell进程在运行,等待命令行的输入
- 执行hello程序,shell通过系统调用来执行我们的请求,这个时候系统调用会讲控制权传递给操作系统。操作系统保存shell进程的上下文,创建一个hello进程以及其上下文并将控制权给新的hello进程。
- hello进程终止后,操作系统恢复shell进程的上下文,并将控制权传回给shell进程
- shell进程继续等待下个命令的输入
当我们挂起一个执行流(协程)的时,我们要保存的东西:
- 栈, 其实在你切换前,你的局部变量,以及要函数的调用都需要保存,否则都无法恢复
- 寄存器状态,这个其实用于当你的执行流恢复后要做什么
而寄存器和栈的结合就可以理解为上下文,上下文切换的理解:
CPU看上去像是在并发的执行多个进程,这是通过处理器在进程之间切换来实现的,操作系统实现这种交错执行的机制称为上下文切换
操作系统保持跟踪进程运行所需的所有状态信息。这种状态,就是上下文。
在任何一个时刻,操作系统都只能执行一个进程代码,当操作系统决定把控制权从当前进程转移到某个新进程时,就会进行上下文切换,即保存当前进程的上下文,恢复新进程的上下文,然后将控制权传递到新进程,新进程就会从它上次停止的地方开始。
不同点:
- 执行流的调度者不同,进程是内核调度,而协程是在用户态调度,也就是说进程的上下文是在内核态保存恢复的,而协程是在用户态保存恢复的,很显然用户态的代价更低
- 进程会被强占,而协程不会,也就是说协程如果不主动让出CPU,那么其他的协程,就没有执行的机会。
- 对内存的占用不同,实际上协程可以只需要4K的栈就足够了,而进程占用的内存要大的多
- 从操作系统的角度讲,多协程的程序是单进程,单协程
线程和协程
既然我们上面也说了,协程也被称为微线程,下面对比一下协程和线程:
线程之间需要上下文切换成本相对协程来说是比较高的,尤其在开启线程较多时,但协程的切换成本非常低。
同样的线程的切换更多的是靠操作系统来控制,而协程的执行由我们自己控制
我们通过下面的图更容易理解:
从上图可以看出,**协程只是在单一的线程里不同的协程之间切换,其实和线程很像,线程是在一个进程下,不同的线程之间做切换,**这也可能是协程称为微线程的原因吧
继续分析协程:
Gevent
Gevent是一种基于协程的Python网络库,它用到Greenlet提供的,封装了libevent事件循环的高层同步API。它让开发者在不改变编程习惯的同时,用同步的方式写异步I/O的代码。
在 Python 里,按照官方解释 greenlet 是轻量级的并行编程,gevent 就是利用 greenlet 实现的基于协程(coroutine)的 python 的网络 library,通过使用greenlet提供了一个在libev事件循环顶部的高级别并发API。即 gevent 是对 greenlet 的高级封装。
主要特性有以下几点:
- 基于 libev 的快速事件循环,Linux上面的是 epoll 机制
- 基于 greenlet 的 轻量级执行单元
- API 复用了 Python 标准库里的内容。API 的概念和 Python 标准库一致(如事件,队列)。
- TCP/UDP/HTTP 服务器
- 支持 SSL 的协作式 sockets
- 子进程支持(通过gevent.subprocess)
- 线程池
- greenlets是确定性的。给定相同的绿色配置和相同的输入集,它们总是产生相同的输出
- gevent每次遇到io操作,需要耗时等待时,会自动跳到下一个协程继续执行。
- gevent的代码风格和线程非常相似,运行出来后的效果也非常相似。
- 通过monkey patching功能来使得第三方模块变成协作式
libevent 是一个事件分发引擎,greenlet 提供了轻量级线程的支持,gevent 就是基于这两个的一个专门处理网络逻辑的并行库。
- gevent.spawn 启动的所有协程,都是运行在同一个线程之中,所以协程不能跨线程同步数据。
- gevent.queue.Queue 是协程安全的。
- gevent 启动的并发协程,具体到 task function,不能有长时间阻塞的IO操作。因为gevent的协程的特点是,当前协程阻塞了才会切换到别的协程。如果当前协程长时间阻塞,则不能显示(gevent.sleep(0),或隐式,由gevent来做)切换到别的协程。导致程序出问题。
- 如果有长时间阻塞的 IO 操作,还是用传统的线程模型比较好。
- 因为 gevent 的特点总结是:事件驱动 + 协程 + 非阻塞IO,事件驱动指的是 libvent 对 epool 的封装,是基于事件的方式处理 IO。协程指的是 greenlet,非阻塞 IO 指的是 gevent 已经 patch 过的各种库,例如 socket 和 select 等等。
- 使用 gevent 的协程,最好要用 gevent 自身的非阻塞的库。如 httplib, socket, select 等等。
- gevent 适合处理大量无阻塞的任务,如果有实在不能把阻塞的部分变为非阻塞再交给 gevent 处理,就把阻塞的部分改为异步吧。
原理:
程序的重要部分是将任务函数封装到 gevent.spawn。初始化的 greenlet 列表存放在数组 threads 中,此数组被传给 gevent.joinall 函数,gevent.joinall 会阻塞当前流程,并执行所有给定的 greenlet,执行流程只会在所有greenlet执行完后才会继续向下走。 gevent 实现了python 标准库里面大部分的阻塞式系统调用,包括 socket、ssl、threading 和 select 等模块,而将这些阻塞式调用变为协作式运行(参见猴子补丁部分)。
猴子补丁 Monkey Patch:
- (1)猴子补丁的由来 。猴子补丁的这个叫法起源于 Zope 框架,大家在修正 Zope 的 Bug 的时候经常在程序后面追加更新部分,这些被称作是 “杂牌军补丁(guerillapatch)”,后来 guerilla 就渐渐的写成了 gorllia(猩猩),再后来就写了 monkey(猴子),所以猴子补丁的叫法是这么莫名其妙的得来的。 后来在动态语言中,不改变源代码而对功能进行追加和变更,统称为“猴子补丁”。所以猴子补丁并不是 Python 中专有的。猴子补丁这种东西充分利用了动态语言的灵活性,可以对现有的语言Api 进行追加,替换,修改 Bug,甚至性能优化等等。 使用猴子补丁的方式,gevent 能够修改标准库里面大部分的阻塞式系统调用,包括 socket、ssl、threading 和 select 等模块,而变为协作式运行。也就是通过猴子补丁的 monkey.patch_xxx() 来将 python 标准库中 模块 或 函数 改成 gevent 中的响应的具有协程的协作式对象。这样在不改变原有代码的情况下,将应用的阻塞式方法,变成协程式的。
- (2)猴子补丁使用时的注意事项 。猴子补丁的功能很强大,但是也带来了很多的风险,尤其是像 gevent 这种直接进行 API替换的补丁,整个 Python 进程所使用的模块都会被替换,可能自己的代码能 hold 住,但是其它第三方库,有时候问题并不好排查,即使排查出来也是很棘手,所以,就像松本建议的那样,如果要使用猴子补丁,那么只是做功能追加,尽量避免大规模的 API 覆盖。 虽然猴子补丁仍然是邪恶的(evil),但在这种情况下它是 “有用的邪恶(useful evil)”。
1、关于Linux的 epoll 机制:
epoll是Linux内核为处理大批量文件描述符而作了改进的poll,是Linux下多路复用IO接口select/poll的增强版本,它能显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率。epoll的优点:
支持一个进程打开大数目的socket描述符。select的一个进程所打开的FD由FD_SETSIZE的设置来限定,而epoll没有这个限制,它所支持的FD上限是最大可打开文件的数目,远大于2048。
IO效率不随FD数目增加而线性下降:由于epoll只会对“活跃”的socket进行操作,于是,只有”活跃”的socket才会主动去调用 callback函数,其他idle状态的socket则不会。
使用mmap加速内核与用户空间的消息传递。epoll是通过内核于用户空间mmap同一块内存实现的。
内核微调。
2、libev机制
提供了指定文件描述符事件发生时调用回调函数的机制。libev是一个事件循环器:向libev注册感兴趣的事件,比如socket可读事件,libev会对所注册的事件的源进行管理,并在事件发生时触发相应的程序。
示例:
import gevent
from gevent import socket
urls = ['www.baidu.com', 'www.example.com', 'www.python.org']
jobs = [gevent.spawn(socket.gethostbyname, url) for url in urls]
gevent.joinall(jobs, timeout=2)
result = [job.value for job in jobs]
print(result)
结果:[‘61.135.169.125’, ‘93.184.216.34’, ‘151.101.228.223’]
注解:gevent.spawn() 方法 spawn 一些 jobs,然后通过 gevent.joinall 将 jobs 加入到 微线程 执行队列中等待其完成,设置超时为 2 秒。执行后的结果通过检查 gevent.Greenlet.value 值来收集。gevent.socket.gethostbyname() 函数与标准的socket.gethotbyname() 有相同的接口,但它不会阻塞整个解释器,因此会使得其他的 greenlets 跟随着无阻的请求而执行。
协程,gevent,greenlet,eventlet 不了解的可以上网查找资料了解下。至于 协程,进程 和 线程 大家平时了解的都比较多,而协程算是一种轻量级进程,但又不能叫进程,因为操作系统并不知道它的存在。什么意思呢,就是说,协程像是一种在程序级别来模拟系统级别的进程,由于是单进程,并且少了上下文切换,于是相对来说系统消耗很少,而且网上的各种测试也表明,协程确实拥有惊人的速度。并且在实现过程中,协程可以用以前同步思路的写法,而运行起来确是异步的,也确实很有意思。话说有一种说法就是说进化历程是:多进程->多线程->异步->协程,暂且不论说的对不对,单从诸多赞誉来看,协程还是有必要理解一下的。
比较惭愧,greenlet 没怎么看就直接看 gevent,官方文档还是可以看看的,尤其是源码里的 examples 都相当不错,有助于理解gevent 的使用。
gevent 封装了很多很方便的接口,其中一个就是 monkey:
from gevent import monkey
monkey.patch_all()
这样两行,就可以使用 python 以前的 socket 之类的,因为 gevent 已经给你自动转化了,真是超级方便阿。
而且安装 gevent 也是很方便,首先安装依赖 libevent 和 greenlet,再利用 pypi 安装即可
安装 libevent:sudo apt-get install libevent-dev
安装 python-dev:sudo apt-get install python-dev
安装 gevent:sudo pip install gevent
安装 greenlet:sudo pip install greenlet
示例代码:
import gevent
from gevent