cas cpu 硬件同步原语(compare and swap)

最新推荐文章于 2024-03-31 22:43:44 发布

zdy0_2004

最新推荐文章于 2024-03-31 22:43:44 发布

阅读量2.2k

点赞数

分类专栏： c Linux 文章标签：内核 c++ linux

Linux 同时被 2 个专栏收录

402 篇文章 16 订阅

订阅专栏

43 篇文章 1 订阅

订阅专栏

cas

分类： linux api 2012-07-04 11:16 311人阅读评论(0) 收藏举报

 
 算法 
 linux内核 
 struct 
 jni 
 汇编 
 google 

在JDK 5之前Java语言是靠synchronized关键字保证同步的，这会导致有锁（后面的章节还会谈到锁）。

锁机制存在以下问题：

（1）在多线程竞争下，加锁、释放锁会导致比较多的上下文切换和调度延时，引起性能问题。

（2）一个线程持有锁会导致其它所有需要此锁的线程挂起。

（3）如果一个优先级高的线程等待一个优先级低的线程释放锁会导致优先级倒置，引起性能风险。

volatile是不错的机制，但是volatile不能保证原子性。因此对于同步最终还是要回到锁机制上来。

独占锁是一种悲观锁，synchronized就是一种独占锁，会导致其它所有需要锁的线程挂起，等待持有锁的线程释放锁。而另一个更加有效的锁就是乐观锁。所谓乐观锁就是，每次不加锁而是假设没有冲突而去完成某项操作，如果因为冲突失败就重试，直到成功为止。

CAS 操作

上面的乐观锁用到的机制就是CAS，Compare and Swap。

CAS有3个操作数，内存值V，旧的预期值A，要修改的新值B。当且仅当预期值A和内存值V相同时，将内存值V修改为B，否则什么都不做。

非阻塞算法（nonblocking algorithms）

一个线程的失败或者挂起不应该影响其他线程的失败或挂起的算法。

现代的CPU提供了特殊的指令，可以自动更新共享数据，而且能够检测到其他线程的干扰，而 compareAndSet() 就用这些代替了锁定。

拿出AtomicInteger来研究在没有锁的情况下是如何做到数据正确性的。

private volatile int value;

首先毫无以为，在没有锁的机制下可能需要借助volatile原语，保证线程间的数据是可见的（共享的）。这样才获取变量的值的时候才能直接读取。

public final int get() {
return value;
}

然后来看看++i是怎么做到的。

public final int incrementAndGet() {
    for (;;) {
        int current = get();
        int next = current + 1;
        if (compareAndSet(current, next))
            return next;
    }
}

在这里采用了CAS操作，每次从内存中读取数据然后将此数据和+1后的结果进行CAS操作，如果成功就返回结果，否则重试直到成功为止。

而compareAndSet利用JNI来完成CPU指令的操作。

public final boolean compareAndSet(int expect, int update) {
    return unsafe.compareAndSwapInt(this, valueOffset, expect, update);
    }

整体的过程就是这样子的，利用CPU的CAS指令，同时借助JNI来完成Java的非阻塞算法。其它原子操作都是利用类似的特性完成的。

而整个J.U.C都是建立在CAS之上的，因此对于synchronized阻塞算法，J.U.C在性能上有了很大的提升。

CAS看起来很爽，但是会导致“ABA问题”。

CAS算法实现一个重要前提需要取出内存中某时刻的数据，而在下时刻比较并替换，那么在这个时间差类会导致数据的变化。

比如说一个线程one从内存位置V中取出A，这时候另一个线程two也从内存中取出A，并且two进行了一些操作变成了B，然后two又将V位置的数据变成A，这时候线程one进行CAS操作发现内存中仍然是A，然后one操作成功。尽管线程one的CAS操作成功，但是不代表这个过程就是没有问题的。如果链表的头在变化了两次后恢复了原值，但是不代表链表就没有变化。因此前面提到的原子操作AtomicStampedReference/AtomicMarkableReference就很有用了。这允许一对变化的元素进行原子操作。

----------------------------------

cpu 硬件同步原语(compare and swap)

支持并发的第一个处理器提供原子的测试并设置操作，通常在单位上运行这项操作。现在的处理器（包括 Intel 和 Sparc 处理器）使用的最通用的方法是实现名为比较并转换或 CAS 的原语。（在 Intel 处理器中，比较并交换通过指令的 cmpxchg 系列实现。PowerPC 处理器有一对名为“加载并保留”和“条件存储”的指令，它们实现相同的目地；MIPS 与 PowerPC 处理器相似，除了第一个指令称为“加载链接”。）

　　CAS 操作包含三个操作数 —— 内存位置（V）、预期原值（A）和新值(B)。如果内存位置的值与预期原值相匹配，那么处理器会自动将该位置值更新为新值。否则，处理器不做任何操作。无论哪种情况，它都会在 CAS 指令之前返回该位置的值。（在 CAS 的一些特殊情况下将仅返回 CAS 是否成功，而不提取当前值。）CAS 有效地说明了“我认为位置 V 应该包含值 A；如果包含该值，则将 B 放到这个位置；否则，不要更改该位置，只告诉我这个位置现在的值即可。”

　　通常将 CAS 用于同步的方式是从地址 V 读取值 A，执行多步计算来获得新值 B，然后使用 CAS 将 V 的值从 A 改为 B。如果 V 处的值尚未同时更改，则 CAS 操作成功。

　　类似于 CAS 的指令允许算法执行读-修改-写操作，而无需害怕其他线程同时修改变量，因为如果其他线程修改变量，那么 CAS 会检测它（并失败），算法可以对该操作重新计算。清单 3 说明了 CAS 操作的行为（而不是性能特征），但是 CAS 的价值是它可以在硬件中实现，并且是极轻量级的（在大多数处理器中）。

------------------------------------------------------

Linux内核中的cmpxchg函数

由古月今人于 2009-09-07 10:51

前几天，为了这个函数花了好多时间，由于参考的资料有误，一直都没有看明白，直到google之后，总算搞明白了，因此写出来大家分享一下。
在Linux内核中，提供了比较并交换的函数cmpxchg，代码在include/asm-i386/cmpxchg.h中，函数的原型是：

代码: 全选

cmpxchg(void *ptr, unsigned long old, unsigned long new);

函数完成的功能是：将old和ptr指向的内容比较，如果相等，则将new写入到ptr中，返回old，如果不相等，则返回ptr指向的内容。

在linux中的实现是这样的。

代码: 全选

#define cmpxchg(ptr,o,n)\
     ((__typeof__(*(ptr)))__cmpxchg((ptr),(unsigned long)(o),\
                     (unsigned long)(n),sizeof(*(ptr))))

很明显，这个函数就是调用了__cmpxchg。

代码: 全选

static inline unsigned long __cmpxchg(volatile void *ptr, unsigned long old,
                       unsigned long new, int size)
 {
     unsigned long prev;
     switch (size) {
     case 1:
         __asm__ __volatile__(LOCK_PREFIX "cmpxchgb %b1,%2"
                      : "=a"(prev)
                      : "q"(new), "m"(*__xg(ptr)), "0"(old)
                      : "memory");
         return prev;
     case 2:
         __asm__ __volatile__(LOCK_PREFIX "cmpxchgw %w1,%2"
                      : "=a"(prev)
                      : "r"(new), "m"(*__xg(ptr)), "0"(old)
                      : "memory");
         return prev;
     case 4:
         __asm__ __volatile__(LOCK_PREFIX "cmpxchgl %1,%2"
                      : "=a"(prev)
                      : "r"(new), "m"(*__xg(ptr)), "0"(old)
                      : "memory");
         return prev;
     }
     return old;
 }

以最为常用的4字节交换为例，主要的操作就是汇编指令cmpxchgl %1,%2，注意一下其中的%2，也就是后面的"m"(*__xg(ptr))。
__xg是在这个文件中定义的宏：
struct __xchg_dummy { unsigned long a[100]; };
#define __xg(x) ((struct __xchg_dummy *)(x))
那么%2经过预处理，展开就是"m"(*((struct __xchg_dummy *)(ptr)))，这种做法，就可以达到在cmpxchg中的%2是一个地址，就是ptr指向的地址。如果%2是"m"(ptr)，那么指针本身的值就出现在cmpxchg指令中。

我手头有一份《奔腾指令速查》，其中对cmpxchg的说明是这样的：

代码: 全选

CMPXCHG r/m32,r32 0F B1 /r CMPXCHG EBX,ECX ；如果EAX与EBX相等，则ECX送EBX且ZF置1；否则EBX送ECX，且ZF清0

文章里用的是MS的汇编格式，换成AT&T的格式就是：

代码: 全选

cmpxchg %ecx, %ebx；如果EAX与EBX相等，则ECX送EBX且ZF置1；否则EBX送ECX，且ZF清0

在上述例子中，eax就是old，ebx就是ptr指向的内容，ecx就是new。所以cmpxchg指令的操作就是：如果old等于ptr指向的内容，那么就把new写入到ptr中，返回old(%eax没有改变过，一直是old)，这部分和cmpxchg函数的原意是符合的；如果old不等于ptr指向的内容，那么ptr的内容写入new(%ecx)中，返回old(%eax没有改变过，一直是old)，这明显不符合cmpxchg函数的意思。对此是大惑不解，后来经过Google才知道，那份资料有错。正解是：

代码: 全选

cmpxchg %ecx, %ebx；如果EAX与EBX相等，则ECX送EBX且ZF置1；否则EBX送EAX，且ZF清0

也就是说，在old和ptr指向的内容不相等的时候，将ptr的内容写入eax中，这样，ptr的内容就会返回给cmpxchg函数的调用者。这样就和原意相符合了。