目录
一、Uthread: switching between threads
写在前面
本实验将使我们熟悉多线程。将在用户级线程包中实现线程之间的切换,使用多个线程来加速程序,并实现一个屏障。
第一个练习让我们在用户态模拟了线程的切换,这里重要的就是进程/线程上下文的保存与恢复;第二三个练习则是让我们跳出了xv6,去熟悉pthread库和线程的同步互斥。
线程调度
线程调度的过程大概是以下几个步骤:
- 首先是用户线程接收到了时钟中断,强迫CPU从用户空间进程切换到内核,同时在 trampoline 代码中,保存当前寄存器状态到 trapframe 中;
- 在 usertrap 处理中断时,切换到了该进程对应的内核线程;
- 内核线程在内核中,先做一些操作,然后调用 swtch 函数,保存用户进程对应的内核线程的寄存器至 context 对象;
- swtch 函数并不是直接从一个内核线程切换到另一个内核线程;而是先切换到当前 cpu 对应的调度器线程,之后就在调度器线程的 context 下执行 schedulder 函数中;
- schedulder 函数会再次调用 swtch 函数,切换到下一个内核线程中,由于该内核线程肯定也调用了 swtch 函数,所以之前的 swtch 函数会被恢复,并返回到内核线程所对应进程的系统调用或者中断处理程序中。
- 当内核程序执行完成之后,trapframe 中的用户寄存器会被恢复,完成线程调度。
线程调度的过程主要是保存 contex 上下文状态,因为这里的切换全都是以函数调用的形式,因此这里只需要保存被调用者保存的寄存器(Callee-saved register)即可,调用者的寄存器会自动保存。
一、Uthread: switching between threads
1.实验要求
在本练习中,将为用户级线程系统设计上下文切换机制,然后实现它。为了让您开始,您的xv6有两个文件:user/uthread.c和user/uthread_switch.S,以及一个规则:运行在Makefile中以构建
uthread
程序。uthread.c包含大多数用户级线程包,以及三个简单测试线程的代码。线程包缺少一些用于创建线程和在线程之间切换的代码。您的工作是提出一个创建线程和保存/恢复寄存器以在线程之间切换的计划,并实现该计划。完成后,
make grade
应该表明您的解决方案通过了uthread
测试。完成后,在xv6上运行
uthread
时应该会看到以下输出(三个线程可能以不同的顺序启动):$ make qemu ... $ uthread thread_a started thread_b started thread_c started thread_c 0 thread_a 0 thread_b 0 thread_c 1 thread_a 1 thread_b 1 ... thread_c 99 thread_a 99 thread_b 99 thread_c: exit after 100 thread_a: exit after 100 thread_b: exit after 100 thread_schedule: no runnable threads $
该输出来自三个测试线程,每个线程都有一个循环,该循环打印一行,然后将CPU让出给其他线程。
然而在此时还没有上下文切换的代码,您将看不到任何输出。
- 您需要将代码添加到user/uthread.c中的
thread_create()
和thread_schedule()
,以及user/uthread_switch.S中的thread_switch
。- 一个目标是确保当
thread_schedule()
第一次运行给定线程时,该线程在自己的栈上执行传递给thread_create()
的函数。- 另一个目标是确保
thread_switch
保存被切换线程的寄存器,恢复切换到线程的寄存器,并返回到后一个线程指令中最后停止的点。- 您必须决定保存/恢复寄存器的位置;修改
struct thread
以保存寄存器是一个很好的计划。- 您需要在
thread_schedule
中添加对thread_switch
的调用;您可以将需要的任何参数传递给thread_switch
,但目的是将线程从t
切换到next_thread
。2.提示
thread_switch
只需要保存/还原被调用方保存的寄存器(callee-save register,参见LEC5使用的文档《Calling Convention》)。为什么?- 您可以在user/uthread.asm中看到
uthread
的汇编代码,这对于调试可能很方便。3.具体实现
(1)上下文切换
首先是 uthread_switch.S 中实现上下文切换,这里可以直接参考(复制) swtch.S:
.text /* * save the old thread's registers, * restore the new thread's registers. */ .globl thread_switch thread_switch: /* YOUR CODE HERE */ sd ra, 0(a0) sd sp, 8(a0) sd s0, 16(a0) sd s1, 24(a0) sd s2, 32(a0) sd s3, 40(a0) sd s4, 48(a0) sd s5, 56(a0) sd s6, 64(a0) sd s7, 72(a0) sd s8, 80(a0) sd s9, 88(a0) sd s10, 96(a0) sd s11, 104(a0) ld ra, 0(a1) ld sp, 8(a1) ld s0, 16(a1) ld s1, 24(a1) ld s2, 32(a1) ld s3, 40(a1) ld s4, 48(a1) ld s5, 56(a1) ld s6, 64(a1) ld s7, 72(a1) ld s8, 80(a1) ld s9, 88(a1) ld s10, 96(a1) ld s11, 104(a1) ret /* return to ra */
保存了旧线程的寄存器并恢复了新线程的寄存器
(2)定义上下文字段
从 proc.h 中复制一下 context 结构体内容,用于保存 ra、sp 以及 callee-saved registers:
struct context { uint64 ra; uint64 sp; // callee-saved uint64 s0; uint64 s1; uint64 s2; uint64 s3; uint64 s4; uint64 s5; uint64 s6; uint64 s7; uint64 s8; uint64 s9; uint64 s10; uint64 s11; };
在线程的结构体中进行声明:
(3)调度 thread_schedule
在 thread_schedule 中调用 thread_switch:
(4)创建并初始化线程
线程栈是从高位到低位,因此初始化时栈指针 sp 应该指向数组底部。
返回地址 ra 直接指向该函数的地址就行,这样开始调度时,直接执行该函数(线程)。
4.检测结果
二、Using threads (moderate)
1.实验要求
在本作业中,您将探索使用哈希表的线程和锁的并行编程。您应该在具有多个内核的真实Linux或MacOS计算机(不是xv6,不是qemu)上执行此任务。最新的笔记本电脑都有多核处理器。
这个作业使用UNIX的pthread线程库。您可以使用
man pthreads
在手册页面上找到关于它的信息,您可以在web上查看,例如这里、这里和这里。文件notxv6/ph.c包含一个简单的哈希表,如果单个线程使用,该哈希表是正确的,但是多个线程使用时,该哈希表是不正确的。在您的xv6主目录(可能是
~/xv6-labs-2020
)中,键入以下内容:请注意,要构建
ph
,Makefile使用操作系统的gcc,而不是6.S081的工具。ph
的参数指定在哈希表上执行put
和get
操作的线程数。运行一段时间后,ph 1
将产生与以下类似的输出:
看到的数字可能与此示例输出的数字相差两倍或更多,这取决于您计算机的速度、是否有多个核心以及是否正在忙于做其他事情。
ph
运行两个基准程序。首先,它通过调用put()
将许多键添加到哈希表中,并以每秒为单位打印puts的接收速率。之后它使用get()
从哈希表中获取键。打印由于puts而应该在哈希表中但丢失的键的数量(在本例中为0),并以每秒为单位打印gets的接收数量。通过给
ph
一个大于1的参数,可以告诉它同时从多个线程使用其哈希表。试试ph 2
:这个
ph 2
输出的第一行表明,当两个线程同时向哈希表添加条目时,它们达到每秒33832次插入的总速率。这大约是运行ph 1
的单线程速度的两倍。这是一个优秀的“并行加速”,大约达到了人们希望的2倍(即两倍数量的核心每单位时间产出两倍的工作)。然而,声明
16740 keys missing
的两行表示散列表中本应存在的大量键不存在。也就是说,puts应该将这些键添加到哈希表中,但出现了一些问题。请看一下notxv6/ph.c,特别是put()
和insert()
。2.提示
为什么两个线程都丢失了键,而不是一个线程?确定可能导致键丢失的具有2个线程的事件序列。在answers-thread.txt中提交您的序列和简短解释。
[!TIP] 为了避免这种事件序列,请在notxv6/ph.c中的
put
和get
中插入lock
和unlock
语句,以便在两个线程中丢失的键数始终为0。相关的pthread调用包括:
pthread_mutex_t lock; // declare a lock
pthread_mutex_init(&lock, NULL); // initialize the lock
pthread_mutex_lock(&lock); // acquire lock
pthread_mutex_unlock(&lock); // release lock
当
make grade
说您的代码通过ph_safe
测试时,您就完成了,该测试需要两个线程的键缺失数为0。在此时,ph_fast
测试失败是正常的。不要忘记调用
pthread_mutex_init()
。首先用1个线程测试代码,然后用2个线程测试代码。您主要需要测试:程序运行是否正确呢(即,您是否消除了丢失的键?)?与单线程版本相比,双线程版本是否实现了并行加速(即单位时间内的工作量更多)?在某些情况下,并发
put()
在哈希表中读取或写入的内存中没有重叠,因此不需要锁来相互保护。您能否更改ph.c以利用这种情况为某些put()
获得并行加速?提示:每个散列桶加一个锁怎么样?修改代码,使某些
put
操作在保持正确性的同时并行运行。当make grade
说你的代码通过了ph_safe
和ph_fast
测试时,你就完成了。ph_fast
测试要求两个线程每秒产生的put
数至少是一个线程的1.25倍。3.具体实现
(1)为每个散列桶定义一个锁,将五个锁放在一个数组中,并进行初始化
(2)在
put
函数中对insert
上锁
4.测试结果
三、Barrier
1.实验要求
在本作业中,您将实现一个屏障)(Barrier):应用程序中的一个点,所有参与的线程在此点上必须等待,直到所有其他参与线程也达到该点。您将使用pthread条件变量,这是一种序列协调技术,类似于xv6的
sleep
和wakeup
。您应该在真正的计算机(不是xv6,不是qemu)上完成此任务。
文件notxv6/barrier.c包含一个残缺的屏障实现。
2指定在屏障上同步的线程数(barrier.c中的
nthread
)。每个线程执行一个循环。在每次循环迭代中,线程都会调用barrier()
,然后以随机微秒数休眠。如果一个线程在另一个线程到达屏障之前离开屏障将触发断言(assert)。期望的行为是每个线程在barrier()
中阻塞,直到nthreads
的所有线程都调用了barrier()
。2.提示
您的目标是实现期望的屏障行为。除了在
ph
作业中看到的lock原语外,还需要以下新的pthread原语;详情请看这里和这里。
// 在cond上进入睡眠,释放锁mutex,在醒来时重新获取
pthread_cond_wait(&cond, &mutex);
// 唤醒睡在cond的所有线程
pthread_cond_broadcast(&cond);
确保您的方案通过
make grade
的barrier
测试。
pthread_cond_wait
在调用时释放mutex
,并在返回前重新获取mutex
。我们已经为您提供了
barrier_init()
。您的工作是实现barrier()
,这样panic就不会发生。我们为您定义了struct barrier
;它的字段供您使用。有两个问题使您的任务变得复杂:
- 你必须处理一系列的
barrier
调用,我们称每一连串的调用为一轮(round)。bstate.round
记录当前轮数。每次当所有线程都到达屏障时,都应增加bstate.round
。- 您必须处理这样的情况:一个线程在其他线程退出
barrier
之前进入了下一轮循环。特别是,您在前后两轮中重复使用bstate.nthread
变量。确保在前一轮仍在使用bstate.nthread
时,离开barrier
并循环运行的线程不会增加bstate.nthread
。使用一个、两个和两个以上的线程测试代码。
3.具体实现
这里是生产者消费者模式,如果还有线程没到达,就加入到队列中,等待唤起;如果最后一个线程到达了,就将轮数加一,然后唤醒所有等待这个条件变量的线程。
static void barrier() { // YOUR CODE HERE // Block until all threads have called barrier() and // then increment bstate.round. //申请持有锁 pthread_mutex_lock(&bstate.barrier_mutex); bstate.nthread++; if(bstate.nthread==nthread) { //所有线程已到达 bstate.round++; bstate.nthread = 0; pthread_cond_broadcast(&bstate.barrier_cond); } else { //等待其他线程 //调用等待线程函数时,mutex必须已经持有 pthread_cond_wait(&bstate.barrier_cond, &bstate.barrier_mutex); } //释放锁 pthread_mutex_unlock(&bstate.barrier_mutex); }
4.测试结果