深度讲解futex问答(下)

接上文深度讲解futex问答(上)

 

七、为何futex要支持PI?

Non-PI futex引起的优先级翻转(priority inversion)问题如下图所示:

低优先级任务C首先持锁,这样当高优先级任务A试图持锁失败进入D状态。一般而言,C任务临界区比较短,完成之后就释放锁,任务A就可以执行了。然而,在C执行过程中,中等优先级的任务B被唤醒,抢占了任务C的执行,这时候,所有优先级在A和C之间的任务都可以抢占C的执行,从而使得任务A无法在确定的时间内获取到CPU资源。

PI futex中的PI就是priority inheritance,可以通过优先级继承的方法来解决系统中出现的优先级翻转问题。具体的方法就是当任务A持锁失败的时候,锁的owner task(即任务C)需要临时性的把优先级提升至任务A的优先级。而在释放锁的时候,将其优先级进行恢复原值。

当然,上面只是一个简单的例子,实际系统会涉及更多的锁和线程,但原理类似。对于线程,我们需要记录:

1、该线程持锁哪些锁,这些锁的top waiter是谁,对所有的top waiter按照优先级进行排序。

2、该线程阻塞在哪一把锁上

对于锁,我们需要记录:

1、该锁的owner是谁

2、阻塞在该锁的线程们(按照优先级进行排序)。

注意,这里我们把优先级最高的那个阻塞线程叫做该所的top waiter。

有了这些信息,我们需要维持一个准则就OK了:一个任务的临时优先级应该提升至其持有锁的top waiter线程中最高的那个优先级。

 资料直通车:Linux内核源码技术学习路线+视频教程内核源码

学习直通车:Linux内核源码内存调优文件系统进程管理设备驱动/网络协议栈

八、Rt mutex的原理为何?

PI-futex是通过rt mutex来实现的,因此我们这里简单的聊一聊内核的这个PI-aware mutex。

从rt mutex的视角看任务:

rt_mutex_waiter用来抽象一个阻塞在rt mutex的任务:task成员指向这个任务,lock成员指向对应的rt mutex对象,tree_entry是挂入blocker红黑树的节点,rt mutex对象的waiters成员就是这颗红黑树的根节点(wait_lock成员用来保护红黑树的操作)。而owner则指向持锁的任务。需要特别说明的是waiters这个红黑树是按照任务优先级排序的,left most节点就是对应该锁的top waiter。

从任务的视角来看rt mutex:

为了支持rt mutex,task struct也增加了若干的成员,最重要的就是pi_waiters。由于一个任务可以持有多把锁,每把锁都有top waiter,因此和一个任务关联的top waiter也有非常多,这些top waiter形成了一个红黑树(同样也是按照优先级排序),pi_waiters成员就是这颗红黑树的根节点。这颗红黑树的left most的任务优先级就是实现优先级继承协议中规定要临时提升的优先级。pi_top_task成员指向了left most节点对应的任务对象,我们称之top pi waiter。Task struct的pi_blocked_on成员则指向其阻塞的rt_mutex_waiter对象。

有了上面的基本概念之后,我们讲一下PI chain的概念。首先看看任务和锁的基本关系,如下图所示:

在上面的图片中,task 1持有了Lock A和Lock B,阻塞在Lock C上。一个任务只能阻塞在一个锁上,所以红色箭头只能是从任务到锁,不能分叉。由于一个任务可以持有多把锁,所以黑色箭头会有多个锁指向一个任务,即多把锁汇聚于任务。有了这个基本的关系图之后,我们可以形成更加复杂的任务和锁的逻辑图,如下:

在上面这张图中有四条PI chain:

1、Lock D--->task 2

2、task 4--->Lock D--->task 2

3、Lock A--->task 1--->Lock C--->task 2

4、task 3--->Lock B--->task 1--->Lock C--->task 2

为了能够让PI正常起作用,PI chain中的任务必须维持这样的关系:处于PI chain中右端的任务的优先级必须大于等于PI chain中左端的任务们。我们以第四条PI chain为例,任务2的优先级必须大于等于任务1和任务3的优先级,而任务1的优先级必须要大于等于任务3的优先级。

九、PI futex和rt mutex有什么关系?

熟悉Linux的工程师都了解内核中的mutex互斥锁以及支持PI的互斥锁版本rt mutex。如果想让用户空间的互斥锁实现优先级继承的功能,那么其实不需要futex模块实现复杂的PI chain,实际上对PI状态的跟踪是通过rt mutex代理来完成的,原理图如下:

我们先看接口部分,normal futex使用FUTEX_WAIT和FUTEX_WAKE操作码来完成阻塞和唤醒的动作。对于PI futex而言,FUTEX_LOCK_PI用来执行上锁,而FUTEX_UNLOCK_PI用来完成解锁。这里的lock和unlock其实是对futex的代理rt mutex而言的。

无论是normal futex还是PI futex,阻塞于futex的任务都会有一个futex_q对象与之对应。对于normal futex,有了futex_q对象,挂入等待队列和将其唤醒的功能都能轻松实现。对于PI futex,我们不仅仅需要挂入队列和唤醒任务,最重要的是我们需要根据PI chain完成任务优先级的调整。为了完成这个功能,需要两个额外的对象,一个是rt_mutex_waiter,表示一个阻塞在rt mutex的任务,其rt mutex指针指向了其阻塞在哪个rt mutex上。另外一个是futex_pi_state对象,它记录了优先级翻转的信息,包括该用户空间上层锁对应的内核态的rt mutex,rt mutex的owner任务的信息等。

十、Pi futex逻辑过程

Pi futex主要有两个逻辑过程:通过FUTEX_LOCK_PI上锁,通过FUTEX_UNLOCK_PI完成释放锁的逻辑。

这里的“上锁”有点误导,不是“试图持锁”的意思,而是竞争上层锁失败之后,陷入内核准备进入阻塞状态。这里为了记录PI state,所以需要对代理rt mutex执行上锁的动作(基本上也是会阻塞在rt mutex上)。对于pi futex的。正常futex的部分,例如get hash key、找futex对应的hash bucket、插入hash队列等操作,这里不再描述,主要看PI futex特有的部分。

第一次futex lock pi稍微复杂一点,需要完成owner持锁和current task的阻塞在锁上这两个动作。注意:这里的锁指的是rt mutex。当线程持上层锁成功的时候,我们并不能同时对rt mutex持锁成功并设置owner,因此这时候并不会有futex系统调用进入内核。当第一次阻塞的时候,会通过futex系统调用把owner id传递给内核,这时候我们需要分配一个futex pi state对象创建一个rt mutex,同时建立这个rt mutex和owner task的关系:

1、挂入owner task的futex pi state链表。一个任务可以持有多把上层锁,所以需要链表管理,当然不一定每一个任务持有的上层锁都有对应的futex pi state对象,没有竞争也就不会陷入内核调用FUTEX_LOCK_PI。

2、futex pi state对象的owner成员指向对应的owner task

第二个重要的动作就是让current task去获取rt mutex,上面刚刚设定了owner,这里current task持锁的结果大概率就是会阻塞,不过我们本来就是通过这个阻塞关系来完成PI 状态的跟踪的。rt_mutex_waiter对象抽象了一个阻塞在rt mutex的任务,我们需要建立rt_mutex_waiter对象、阻塞任务和rt mutex的关系,具体包括:

1、rt_mutex_waiter对象的lock成员指向对应于的rt mutex,表示该任务阻塞在这个锁上。rt_mutex_waiter对象的task成员指向当前要阻塞的任务对象。

2、将rt_mutex_waiter对象插入rt mutex的waiters红黑树。

3、task struct的pi_blocked_on设置为该rt_mutex_waiter对象。

4、对于rt mutex而言,有了新的阻塞任务,如果优先级比目前该rt mutex的top waiter更高的话,那么需要更新owner task的top waiter,将旧的top waiter节点从红黑树中删除,将新的top waiter插入owner task的top waiter红黑树。

5、根据新的top waiter更新owner task的动态优先级。一旦修改了owner task的优先级,那么其相关的PI chain都需要进行优先级调整。

第二次以及后续的FUTEX_LOCK_PI会简单一点,因为不需要新建rt mutex对象了,只需要在bucket找到第一个futex_q对象,通过其pi state指针就可以定位rt mutex了。有了rt mutex,通过上锁即可让自己阻塞在这个rt mutex上了。

FUTEX_UNLOCK_PI的流程留给读者自行分析了。

十一、小结

本文通过问答的形式简单的介绍了内核futex机制,它是上层同步机制的基石。在PI Futex的介绍中,我们对rt mutex浅尝辄止,读者未能领略其全貌。后续我们会出一篇关于rt mutex的文章,敬请期待。

原文作者:内核工匠

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值