Linux 和对称多处理

 

Linux 和对称多处理

转自@https://www.ibm.com/developerworks/cn/linux/l-linux-smp/

在 SMP 系统上发挥 Linux 的功能

可以通过多种方法提高 Linux 系统的性能,而其中最流行的一种是提高处理器的性能。一个明显的解决方案是使用具有更快时钟频率的处理器,但是对于任何特定技术来讲都存在一个物理极限,时钟频率也有这样的极限。当达到那个极限时,可使用 “越多越好” 的方法应用多处理器。不幸的是,多处理器的性能并不与单个处理器性能的总和成线性比例。

在开始讨论 Linux 中的多处理应用程序之前,我们先来快速地回顾一下多处理的历史。

多处理的历史

多处理起源于 20 世纪 50 年代中期的一些公司,这些公司中有些您可能知道,而另一些您可能就不记得了(IBM、Digital Equipment Corporation、Control Data Corporation)。20 世纪 60 年代早期,Burroughs Corporation 引入了一种对称 MIMD 多处理器,它带有四个 CPU 并通过交叉开关可连接最多十六个内存模块(第一种 SMP 架构)。1964 年引入了 CDC 6600,它的使用比较成功并得到流行,它提供了一个带有十个子处理器(外围处理单元)的 CPU。20 世纪 60 年代末,Honeywell 发布了它的第一个 Multics 系统,这是带八个 CPU 的另一种对称多处理系统。

在开发多处理系统的同时,各种技术的使用也提高了缩小处理器体积和运行更快的时钟频率的能力。20 世纪 80 年代,Cray Research 等公司引入了多处理器系统和类似 UNIX® 的操作系统(CX-OS),以便利用这些能力。

20 世纪 80 年代末期,随着单处理器个人计算机系统(如 IBM PC)的流行,多处理系统的使用呈下降趋势。但是到了二十年后的现在,多处理利用对称多处理技术又回到了个人计算机系统中。

Amdahl 法则

Gene Amdahl 是一名计算机架构师、IBM 职员,在 IBM、Amdahl Corporation(以他的名字命名的企业)和其他一些公司从事计算机架构开发。但是最著名的是他的法则,该法则用于在改进系统的一部分后预测最大的预期系统改进。它主要用来计算使用多处理器后理论上的最大性能改进(参见图 1)。

图 1. 处理器并行化的 Amdahl 法则

处理器并行化的 Amdahl 法则

使用图 1 所示的等式,可计算系统的最大性能改进,N 表示处理器的数目,而因数 F 指定不能并行化的系统部分(即本质上顺序的系统部分)。结果如图 2 所示。

图 2. 最多十个 CPU 的 Amdahl 法则

最多十个 CPU 的 Amdahl 法则

图 2 中最上面的一条线显示了处理器的数目。理想状态下,添加另外的处理器来解决问题时,希望看到这样的性能增长。不幸的是,并非所有的问题都可以并行化,而且还有管理处理器的开销,所以速度的提高并没有这么大。底部(紫色的线)是一个 90% 的处理属于顺序性的问题例子。在此图中,最佳的情况是棕色的线,它展示了一个 10% 顺序性(因此 90% 可并行化)的问题。即使在这种情况下,十个处理器的执行性能也只比五个稍好一点儿。

多处理和 PC

SMP 架构:两个或多个同样的处理器通过一块共享内存彼此连接。每个处理器可同等地访问共享内存(具有相同的内存空间访问延迟)。可将此架构与 Non-Uniform Memory Access(NUMA)架构进行对比。例如,每个处理器拥有自己的内存,访问共享内存时具有不同的访问延迟。

松耦合多处理

最早的 Linux SMP 系统是松耦合多处理器系统。这些系统是利用多个高速互连的单一系统构造的(如 10G 以太网、Fibre Channel 或 Infiniband)。此类架构也被称作集群(参见图 3),Linux Beowulf 项目是此类架构的一个流行的解决方案。Linux Beowulf 集群可利用普通硬件和典型的网络互连(如以太网)来构建。

图 3. 松耦合多处理架构

松耦合多处理架构

构建松耦合多处理器架构很容易(由于使用了 Beowulf 之类的项目),但是它们也有自身限制。构建大型的多处理器网络可能占用相当大的空间并消耗很多电量。因为它们通常是利用普通硬件来构建的,所以包含的有些硬件不相关却要耗费很多电量和空间。更大的缺点在于通信结构。即使使用高速网络(如 10G 以太网),也存在系统可伸缩性的限制。

紧密耦合多处理

紧密耦合多处理指芯片级多处理(CMP)。可将其看作松耦合架构按比例缩小至芯片级。这正是紧密耦合多处理(也称作多核计算)背后的思想。在一个集成电路中,多个芯片、共享内存以及互连形成了一个紧密集成的多处理核心(参见图 4)。

图 4. 紧密耦合多处理架构

紧密耦合多处理架构

在 CMP 中,多个 CPU 通过共享总线连接到共享内存(2 级缓存)。每个处理器也拥有自身的快速内存(1 级缓存)。CMP 紧密耦合的本质使处理器与内存之间的物理距离很短,因此可提供最小的内存访问延迟和更高的性能。此类架构在多线程应用程序中运行良好,该类应用程序中线程可能被分配给多个处理器以实现并行操作。这种方法被称作线程级并行(TLP)。

由于这种多处理器架构的流行,很多供应商都生产了 CMP 设备。表 1 列出了一些 Linux 支持的流行变种。

表 1. CMP 设备样例

供应商设备说明
IBMPOWER4SMP,双 CPU
IBMPOWER5SMP,双 CPU,四个并发线程
AMDAMD X2SMP,双 CPU
Intel®XeonSMP,双 CPU 或四 CPU
IntelCore2 DuoSMP,双 CPU
ARMMPCoreSMP,最多四 CPU
IBMXenonSMP,三个 Power PC CPU
IBMCell Processor不对称多处理(Asymmetric multiprocessing,ASMP),九 CPU

内核配置

为了在支持 SMP 的硬件上通过 Linux 使用 SMP,必须适当地配置内核。内核配置期间必须启用 CONFIG_SMP 选项,以使内核感知 SMP。通过在多 CPU 主机上运行感知 SMP 的内核,可使用 proc 文件系统了解处理器的数目及类型。

首先,使用 grep 在 /proc 下的 cpuinfo 文件中检索处理器的数目。如清单 1 所示,使用计数选项(-c)来统计以单词 processor 开头的行。然后显示 cpuinfo 文件的内容。显示的示例来自一个二芯片的 Xeon 主板。

清单 1. 使用 proc 文件系统检索 CPU 信息

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

mtj@camus:~$ grep -c ^processor /proc/cpuinfo

8

mtj@camus:~$ cat /proc/cpuinfo

processor       : 0

vendor_id       : GenuineIntel

cpu family      : 15

model           : 6

model name      : Intel(R) Xeon(TM) CPU 3.73GHz

stepping        : 4

cpu MHz         : 3724.219

cache size      : 2048 KB

physical id     : 0

siblings        : 4

core id         : 0

cpu cores       : 2

fdiv_bug        : no

hlt_bug         : no

f00f_bug        : no

coma_bug        : no

fpu             : yes

fpu_exception   : yes

cpuid level     : 6

wp              : yes

flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr

pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm

pbe nx lm pni monitor ds_cpl est cid xtpr

 

bogomips        : 7389.18

 

...

 

processor       : 7

vendor_id       : GenuineIntel

cpu family      : 15

model           : 6

model name      : Intel(R) Xeon(TM) CPU 3.73GHz

stepping        : 4

cpu MHz         : 3724.219

cache size      : 2048 KB

physical id     : 1

siblings        : 4

core id         : 3

cpu cores       : 2

fdiv_bug        : no

hlt_bug         : no

f00f_bug        : no

coma_bug        : no

fpu             : yes

fpu_exception   : yes

cpuid level     : 6

wp              : yes

flags           : fpu vme de pse tsc msr pae mce cx8 apic sep mtrr

pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm

pbe nx lm pni monitor ds_cpl est cid xtpr

 

bogomips        : 7438.33

 

mtj@camus:~$

SMP 和 Linux 内核

在 Linux 2.0 的早期,SMP 支持由一个 “大锁” 组成,这个 “大锁” 对跨系统的访问进行串行化。对于 SMP 支持的改进缓慢地进行着,但是直到 2.6 内核才显示出 SMP 的威力。

2.6 内核引入了新的 O(1) 调度程序,它包含更好的 SMP 系统支持。关键在于能在可用 CPU 之间进行负载平衡,同时维持亲合性以提高缓存效率。回顾图 4,当任务与单个 CPU 相关联时,如果将其移到另一个 CPU,就需要为该任务清空缓存。这就增加了任务的内存访问延迟,这些时间用来将其数据移入新 CPU 的内存中。

2.6 内核为每个处理器维护两个 runqueue(过期的和活动的 runqueue)。每个 runqueue 支持 140 个优先级,前面的 100 个用于实时任务,而后面的 40 个用于用户任务。任务分时间片执行,在使用它们分配到的时间片时,这些任务被从活动的 runqueue 移至过期的 runqueue。这就为所有的任务提供了公平访问 CPU 的机会(仅根据每个 CPU 锁定)。

利用每个 CPU 的任务队列,可以根据系统中所有 CPU 的负载进行负载平衡。每 200 毫秒,调度程序就执行一次负载平衡调节,以便重新分配任务负载,维持处理器之间的平衡。有关 Linux 2.6 调度程序的更多信息,请参阅 参考资料 部分。

用户空间线程:使用 SMP 的功能

为使用 SMP,需要在 Linux 内核中执行大量工作,但仅靠操作系统本身还不够。回顾一下,SMP 的能力取决于 TLP。单个单片(非线程化的)程序不能使用 SMP,但是 SMP 可在由核心之间分布的多个线程组成的程序中使用。当一个线程由于等待完成 I/O 处理而被延迟时,另一个线程可执行一些有用的工作。这样,线程之间互相协作,隐藏了各自的延迟时间。

Portable Operating System Interface(POSIX)线程是构建可利用 SMP 的线程化应用程序的一种好方法。POSIX 线程提供了线程化机制和共享内存。当调用程序创建若干线程时,每个线程得到自身的堆栈(本地变量和状态),但共享父线程的数据空间。创建的所有线程共享这个相同的数据空间,但是问题就出在这里。

为支持多线程访问共享内存,需要具备协调机制。POSIX 提供了互斥函数来创建临界区,用于实施单线程对对象(一块内存)的独占访问。不这样做可能导致内存破坏(由于多个线程执行了不同步的操作)。清单 2 演示了如何使用 POSIX 互斥函数创建临界区。

清单 2. 使用 pthread_mutex_lock 和 pthread_mutex_unlock 创建临界区

1

2

3

4

5

6

7

8

9

10

11

pthread_mutex_t crit_section_mutex = PTHREAD_MUTEX_INITIALIZER;

 

...

 

pthread_mutex_lock( &crit_section_mutex );

 

/* Inside the critical section. Memory access is safe here

 * for the memory protected by the crit_section_mutex.

 */

 

pthread_mutex_unlock( &crit_section_mutex );

如果多个线程在完成上面的初始调用后尝试锁定信号量,则这些线程会被阻塞,它们的请求进入队列,直到执行 pthread_mutex_unlock 调用。

SMP 的内核变量保护

如果处理器中的多个核心为内核并发运作,则希望避免共享那些特定于给定核心的数据。出于此原因,2.6 内核引入了 per-CPU 变量的概念,这些变量与单个 CPU 相关联。这允许将某个 CPU 通常访问的变量声明为该 CPU 专有的变量。使用此方法使锁定需求最小化并提高了性能。

per-CPU 变量由 DEFINE_PER_CPU 宏进行定义,需要为该宏提供类型和变量名称。由于宏的运作方式与 l-value 类似,因此也可在宏中进行变量的初始化。下面的示例(来自 ./arch/i386/kernel/smpboot.c)定义了一个变量,它用于表示系统中每个 CPU 的状态。

1

2

/* State of each CPU. */

DEFINE_PER_CPU(int, cpu_state) = { 0 };

该宏创建了一个变量数组(每个 CPU 一个变量)。要访问 per-CPU 变量,需将 per_cpu 宏和 smp_processor_id 结合使用,后者是一个函数,用于返回当前执行代码的当前 CPU 的标识符。

1

per_cpu( cpu_state, smp_processor_id() ) = CPU_ONLINE;

内核提供了用于 per-CPU 锁定和变量动态分配的其他函数。可在 ./include/linux/percpu.h 中查找这些函数。

结束语

当处理器频率达到其极限时,一种流行的提高性能的方法是添加更多的处理器。在早期,这就意味着将更多的处理器添加到主板上,或将多个独立计算机集群到一起。现在,芯片级多处理能够在单个芯片上提供更多的 CPU,由于减少了内存延迟,因而可获得更高的性能。

您会发现 SMP 系统不仅存在于服务器中,还存在于桌面上,特别是在引入虚拟化以后。跟大多数先进技术一样,Linux 提供 SMP 支持。内核负责完成可用 CPU 间的负载优化(从线程到虚拟化操作系统)。惟一要做的就是确保应用程序可被充分地多线程化以便使用 SMP 的能力。

相关主题

  • 您可以参阅本文在 developerWorks 全球网站上的 英文原文
  • Linux 调度器内幕”(developerWorks,2006 年 9 月)详细介绍了 2.6 内核中引入的 Linux 调度程序。
  • pthreads 的基本用法”(developerWorks,2004 年 3 月)介绍了 Linux 下的 Pthread 编程。
  • 使用 /proc 文件系统来访问 Linux 内核的内容”(developerWorks,2006 年 4 月)介绍了 /proc 文件系统,包括如何构建自己的内核模块以提供 /proc 文件系统文件。
  • 在 “The History of Parallel Processing”(1998 年)中,Mark Pacifico 和 Mike Merrill 提供了一个简短但很有趣的关于五十年来多处理历史的介绍。
  • IBM POWER4 和 POWER5 架构提供了对称多处理。POWER5 还提供了对称多线程化(SMT)以获得更高的性能。
  • Cell 处理器 是一种用于非对称多处理的有趣架构。Sony Playstation 3(使用 Cell)清晰地展示了此处理器的强大功能。
  • IBM 在 High-Availability Cluster Multiprocessing(HACMP)中提供了集群技术。除了通过集群提供多处理之外,HACMP 还通过完整的在线系统监控提供了更高的可靠性。
  • Flynn 的原始分类法定义了多处理架构的可能种类。他的论文标题为 “Some Computer Organizations and Their Effectiveness”。此论文发表在 IEEE Transactions on Computing, Vol. C-21, 1972 上面。Wikipedia 提供了对四种分类的一个很好的总结。
  • ARM11 MPCore 是一种可合成的处理器,它最多支持四个 ARM11 CPU,提供总计 2600 Dhrystone 百万指令每秒(million instructions per second,MIPS)的性能。
  • Beowulf 集群 是一种合并普通 Linux 服务器以构建高性能系统的好方法。
  • HyperTransportRapidIO 和即将到来的 Common System Interconnect 之类的标准为下一代系统提供高效率的芯片到芯片的互连。
  • 在 developerWorks 中国网站 Linux 专区 中查找更多关于 Linux 的参考资料。
  • 使用 IBM 试用版软件 构建您的下一个 Linux 开发项目,这些软件可直接从 developerWorks 下载获得。
  • 随时关注 developerWorks 技术活动 和 网络广播

 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值