原子操作笔记

想成为大师啊

于 2024-05-15 16:21:40 发布

阅读量981

点赞数 19

分类专栏：笔记文章标签：笔记 linux 服务器

本文链接：https://blog.csdn.net/xuexiwd/article/details/138909800

版权

笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

什么是原子操作
为什么要关注原子操作
单核CPU的原子操作
多核CPU的原子操作
硬件支持 & 多核原子操作
哪些操作可以确定为原子操作了?
如何实现++i和i++的原子性
Linux提供的两个原子操作接口
- 1. 原子整数操作
- 2. 原子位操作
spinlock CPU同步
总线锁、缓存锁、MESI

什么是原子操作

原子操作是：不可中断的一个或者一系列操作，也就是不会被线程调度机制打断的操作，运行期间不会有任何的上下文切换；

为什么要关注原子操作

如果确定某个操作是原子性，就不用为了去保护这个操作而加上会耗费昂贵性能开销的锁（巧妙的利用原子操作和实现无锁编程）
借助原子操作可以实现互斥锁（mutex）（Linux中的mutex_lock_t）
借助互斥锁，可以实现让更多的操作变成原子操作

原子操作和非原子操作有什么区别

非原子操作修改同一个对象可能会发生数据争用，从而导致未定义行为；（leetcode 1114可以去写写）

单核CPU的原子操作

在单核CPU中，能够在一个指令中完成的操作都可以看作为原子操作，因为中断只发生在指令间；

多核CPU的原子操作

在多核CPU的时代（确实（moore）摩尔定律有些过时了，我们需要更多的CPU，而不是更快的CPU，无法处理快速CPU中的热量散发问题），体系中运行着多个独立的CPU，即使是可以在单个指令中完成的操作也可能会被干扰，典型的例子是decl指令（递减指令），它细分为三个过程：读->改->写，涉及两次内存操作，如果多个CPU运行的多个进程在同时对同一块内存执行这个指令，那情况是无法预测的。

硬件支持 & 多核原子操作

软件级别的原子操作是依赖于硬件支持的. 在x86体系中, CPU提供了HLOCK pin引线, 允许CPU在执行某一个指令（仅仅是一个指令）时拉低HLOCK pin引线的电位, 直到这个指令执行完毕才放开. 从而锁住了总线, 如此在同一总线的CPU就暂时无法通过总线访问内存了, 这样就保证了多核处理器的原子性.（想想这机制对性能影响挺大的）

哪些操作可以确定为原子操作了?

对于非long和double基本数据类型的"简单操作"都可以看作是原子的. 例如: 赋值和返回. 大多数体系中long和double都占据8个字节, 操作系统或者JVM很可能会将写入和读取操作分离为两个单独的32位的操作来执行, 这就产生了在一个读取和写入过程中一个上下文切换（context switch）, 从而导致了不同任务线程看到不正确结果的的可能性.

递增, 递减不是原子操作：i++反汇编的汇编指令：（需要三条指令操作, 和两个内存访问, 一次寄存器修改）

如何实现++i和i++的原子性

单CPU, 使用锁或则禁止多线程调度, 因为本身单核CPU的并发就是伪并发. （在单核CPU中, 在没有阻塞的程序中使用多线程是没必要的）.
多核CPU, 就需要借助上面说道的CPU提供的Lock, 锁住总线. 防止在"读取, 修改, 写入"整个过程期间其他CPU访问内存. （那么“读写，修改，写入”这个操作会不会在在单核中发生线程的切换呢？)

Linux提供的两个原子操作接口

1. 原子整数操作

针对整数的原子操作只能对atomic_t类型的数据处理。这里没有使用C语言的int类型，主要是因为：

让原子函数只接受atomic_t类型操作数，可以确保原子操作只与这种特殊类型数据一起使用.
使用atomic_t类型确保编译器不对相应的值进行访问优化. (原理为: 变量被volatile修饰了)
使用atomic_t类型可以屏蔽不同体系结构上的数据类型的差异。尽管Linux支持的所有机器上的整型数据都是32位，但是使用atomic_t的代码只能将该类型的数据当作24位来使用。这个限制完全是因为在SPARC体系结构上，原子操作的实现不同于其它体系结构：32位int类型的低8位嵌入了一个锁，因为SPARC体系结构对原子操作缺乏指令级的支持，所以只能利用该锁来避免对原子类型数据的并发访问。

原子整数操作最常见的用途就是实现计数器。原子整数操作列表在中定义。原子操作通常是内敛函数，往往通过内嵌汇编指令来实现。如果某个函数本来就是原子的，那么它往往会被定义成一个宏。

在编写内核时，操作demo如下：

atomic_t cnt;
atomic_set(&cnt, 2);
atomic_add(4, &cnt);
atomic_inc(cnt);

2. 原子位操作

原子位操作定义在文件中。令人感到奇怪的是位操作函数是对普通的内存地址进行操作的。原子位操作在多数情况下是对一个字节长的内存（注1）访问，因而位号该位于0-31之间(在64位机器上是0-63之间),但是对位号的范围没有限制。

注1：操作系统可以确保，在同一时刻，只有一个CPU的一个进程访问特定的某个字节，再加上单核中的原子性（基本数据类型的简单操作），所以单字节内存的简单操作是具有天生的多核原子性的。

编写内核代码，把要操作的数据的指针给操作函数，就可以进行位操作了：

unsigned long var = 0;
set_bit(0, &var);           /*set the 0th bit*/
set_bit(1, &var);           /*set the 1th bit*/
clear_bit(1, &var);         /*clear the 1th bit*/
change_bit(0, &var);        /*change the 1th bit*/

spinlock CPU同步

spin lock必须基于CPU的数据总线锁定, 它通过读取一个内存单元(spinlock_t)来判断这个spinlock是否已经被别的CPU锁住. 如果否, 它写进一个特定值, 表示锁定了总线, 然后返回. 如果是, 它会重复以上操作直到成功, 或者spin次数超过一个设定值. 记住上面提及到的: 锁定数据总线的指令只能保证一个指令操作期间CPU独占数据总线. (spinlock在锁定的时侯, 不会睡眠而是会持续的尝试).

如何实现原子操作呢？

总线锁、缓存锁、MESI

随着多核时代的到来，并发操作已经成为很正常的现象，操作系统必须有一些机制和原语，以保证某些基本操作的原子性，比如处理器需要保证读一个字节或写一个字节是原子的，那么它是如何实现的嘛？有如下两个机制：总线锁定和缓存一致性

我们知道，CPU和物理内存之间的通信速度远慢于CPU的处理速度，所以CPU有自己的内部缓存，根据一些规则将内存中的数据读取到内部缓存中来，以加快频繁读取的速度。我们假设在一台PC上只有一个CPU和一份内部缓存，那么所有进程和线程看到的数都是缓存里的数，不会存在问题；但现在服务器通常是多CPU，更普遍的是，每块CPU里有多个内核，而每个内核都维护了自己的缓存，那么这时候多线程并发就会存在缓存不一致，这会导致严重问题；

以 i++为例，i的初始值是0.那么在开始每块缓存都存储了i的值0，当第一块内核做i++的时候，其缓存中的值变成了1，即使马上回写到主内存，那么在回写之后第二块内核缓存中的i值依然是0，其执行i++，回写到内存就会覆盖第一块内核的操作，使得最终的结果是1，而不是预期中的2.

那么怎么解决整个问题呢? 操作系统提供了总线锁定的机制。前端总线(也叫CPU总线)是所有CPU与芯片组连接的主干道，负责CPU与外界所有部件的通信，包括高速缓存、内存、北桥，其控制总线向各个部件发送控制信号、通过地址总线发送地址信号指定其要访问的部件、通过数据总线双向传输。在CPU1要做 i++操作的时候，其在总线上发出一个LOCK#信号，其他处理器就不能操作缓存了该共享变量内存地址的缓存，也就是阻塞了其他CPU，使该处理器可以独享此共享内存。

但我们只需要对此共享变量的操作是原子就可以了，而总线锁定把CPU和内存的通信给锁住了，使得在锁定期间，其他处理器不能操作其他内存地址的数据，从而开销较大，所以后来的CPU都提供了缓存一致性机制，Intel的奔腾486之后就提供了这种优化。

缓存一致性：缓存一致性机制就整体来说，是当某块CPU对缓存中的数据进行操作了之后，就通知其他CPU放弃储存在它们内部的缓存，或者从主内存中重新读取，用MESI阐述原理如下：

MESI协议：是以缓存行(缓存的基本数据单位，在Intel的CPU上一般是64字节)的几个状态来命名的(全名是Modified、Exclusive、 Share or Invalid)。该协议要求在每个缓存行上维护两个状态位，使得每个数据单位可能处于M、E、S和I这四种状态之一，各种状态含义如下：

M：被修改的。处于这一状态的数据，只在本CPU中有缓存数据，而其他CPU中没有。同时其状态相对于内存中的值来说，是已经被修改的，且没有更新到内存中。
E：独占的。处于这一状态的数据，只有在本CPU中有缓存，且其数据没有修改，即与内存中一致。
S：共享的。处于这一状态的数据在多个CPU中都有缓存，且与内存一致。
I：无效的。本CPU中的这份缓存已经无效。

一个处于M状态的缓存行，必须时刻监听所有试图读取该缓存行对应的主存地址的操作，如果监听到，则必须在此操作执行前把其缓存行中的数据写回内存。
一个处于S状态的缓存行，必须时刻监听使该缓存行无效或者独享该缓存行的请求，如果监听到，则必须把其缓存行状态设置为I。
一个处于E状态的缓存行，必须时刻监听其他试图读取该缓存行对应的主存地址的操作，如果监听到，则必须把其缓存行状态设置为S。

当CPU需要读取数据时，如果其缓存行的状态是I的，则需要从内存中读取，并把自己状态变成S，如果不是I，则可以直接读取缓存中的值，但在此之前，必须要等待其他CPU的监听结果，如其他CPU也有该数据的缓存且状态是M，则需要等待其把缓存更新到内存之后，再读取。

当CPU需要写数据时，只有在其缓存行是M或者E的时候才能执行，否则需要发出特殊的RFO指令(Read Or Ownership，这是一种总线事务)，通知其他CPU置缓存无效(I)，这种情况下性能开销是相对较大的。在写入完成后，修改其缓存状态为M。

所以如果一个变量在某段时间只被一个线程频繁地修改，则使用其内部缓存就完全可以办到，不涉及到总线事务，如果缓存一会被这个CPU独占、一会被那个CPU 独占，这时才会不断产生RFO指令影响到并发性能。这里说的缓存频繁被独占并不是指线程越多越容易触发，而是这里的CPU协调机制，这有点类似于有时多线程并不一定提高效率，原因是线程挂起、调度的开销比执行任务的开销还要大，这里的多CPU也是一样，如果在CPU间调度不合理，也会形成RFO指令的开销比任务开销还要大。当然，这不是编程者需要考虑的事，操作系统会有相应的内存地址的相关判断

并非所有情况都会使用缓存一致性的，如被操作的数据不能被缓存在CPU内部或操作数据跨越多个缓存行(状态无法标识)，则处理器会调用总线锁定;另外当CPU不支持缓存锁定时，自然也只能用总线锁定了，比如说奔腾486以及更老的CPU。