大厂之路一由浅入深、并行基础、源码分析一volatile关键字，Java内存模型、java内存区域，硬件内存架构

slow is fast.

已于 2022-03-14 00:32:00 修改

阅读量404

点赞数 2

分类专栏： # 重拳出击之《J.U.C 源码》文章标签： java volatile 高并发

于 2021-05-27 20:07:51 首次发布

本文链接：https://blog.csdn.net/wwj17647590781/article/details/117327294

版权

重拳出击之《J.U.C 源码》专栏收录该内容

26 篇文章 72 订阅

订阅专栏

本文详细探讨了Java中的volatile关键字，它用于保证多线程环境下的可见性和禁止指令重排序。volatile确保了不同线程对变量的修改能立即可见，但不保证原子性。通过CPU缓存、MESI协议和内存模型的分析，揭示了volatile如何工作。文中还讨论了volatile在并发编程中的局限性，并给出了使用场景和示例，强调了其在状态标记量和double-check idiom中的应用。

摘要由CSDN通过智能技术生成

参考blog1：90%都来自这！！点击，这才是大神的作品！！！！！！
参考blog2: 点击！！！膜拜仓颉大佬！！！
参考blog3: 必看文章，或者看完本文章再看！！！！！
参考书籍：《深入理解Java虚拟机》
这篇文章与其说是原创，不如说是各种好的文章的按自己的理解汇总，只是成长路上的笔记！！！！！！！！如果有异议、可以改为转载，一起努力！！！！

volatile关键字：
- 在Java 5之前，它是一个备受争议的关键字，在Java 5之后，volatile关键字才得以重获生机。
- volatile关键字的作用是保证变量在多线程之间的可见性，它是java.util.concurrent包的核心，没有volatile就没有这么多的并发类给我们使用。
- 本文详细解读一下volatile关键字如何保证变量在多线程之间的可见性，以及有序性、在此之前，有必要讲解一下CPU缓存、内存模型JMM的相关知识，掌握这部分知识一定会让我们更好地理解volatile的原理，从而更好、更正确地地使用volatile关键字。

CPU缓存的概念
- CPU缓存的由来： CPU缓存的出现主要是为了解决CPU运算速度与内存读写速度不匹配的矛盾，因为CPU运算速度要比内存读写速度快得多，举个例子：
  - 一次主内存的访问通常在几十到几百个时钟周期
  - 一次L1高速缓存的读写只需要1~2个时钟周期
  - 一次L2高速缓存的读写也只需要数十个时钟周期（这里可以看我的blog，OS模块有讲解）
- 这种访问速度的显著差异，导致CPU可能会花费很长时间等待数据到来或把数据写入内存。
- 基于此，现在CPU大多数情况下读写都不会直接访问内存（硬件层面：CPU都没有连接到内存的管脚），取而代之的是CPU缓存，CPU缓存是位于CPU与内存之间的临时存储器，它的容量比内存小得多但是交换速度却比内存快得多。而缓存中的数据是内存中的一小部分数据，但这一小部分是短时间内CPU即将访问的，当CPU调用大量数据时，就可先从缓存中读取，从而加快读取速度。
- 按照读取顺序与CPU结合的紧密程度，CPU缓存可分为：（大部分为两级）
  - 一级缓存：简称L1 Cache，位于CPU内核的旁边，是与CPU结合最为紧密的CPU缓存
  - 二级缓存：简称L2 Cache，分内部和外部两种芯片，内部芯片二级缓存运行速度与主频相同，外部芯片二级缓存运行速度则只有主频的一半
  - 三级缓存：简称L3 Cache，部分高端CPU才有
- 每一级缓存中所存储的数据全部都是下一级缓存中的一部分，这三种缓存的技术难度和制造成本是相对递减的，所以其容量也相对递增。
- 当CPU要读取一个数据时，首先从一级缓存中查找，如果没有再从二级缓存中查找，如果还是没有再从三级缓存中或内存中查找。一般来说每级缓存的命中率大概都有80%左右，也就是说全部数据量的80%都可以在一级缓存中找到，只剩下20%的总数据量才需要从二级缓存、三级缓存或内存中读取。

（CPU缓存）高速缓存带来的问题：缓存不一致问题
- 比如同时有2个线程执行这段代码，假如初始时i的值为0，那么我们希望两个线程执行完之后i的值变为2。但是事实会是这样吗？
  - 举例：初始时，两个线程分别读取i的值存入各自所在的CPU的高速缓存当中，然后线程1进行加1操作，然后把i的最新值1写入到内存。此时线程2的高速缓存当中i的值还是0，进行加1操作之后，i的值为1，然后线程2把i的值写入内存。最终结果i的值是1，而不是2。这就是著名的缓存一致性问题。通常称这种被多个线程访问的变量为共享变量。
  - 也就是说，如果一个变量在多个CPU中都存在缓存（一般在多线程编程时才会出现），那么就可能存在缓存不一致的问题。
  - 接下来我们直观的分析高速缓存带来的问题。
- CPU->CPU缓存->主内存数据读取之间的关系：
  dasdsdsddsdsas
- 当系统运行时，CPU执行计算的过程如下 （CPU缓存的应用）：
  - 程序以及数据被加载到主内存
  - 指令和数据被加载到CPU缓存
  - CPU执行指令，把结果写到高速缓存
  - 高速缓存中的数据写回主内存
- 如果服务器是单核CPU，那么这些步骤不会有任何的问题，但是如果服务器是多核CPU，那么问题来了，以Intel Core i7处理器的高速缓存概念模型为例（图片摘自《深入理解计算机系统》）：
  - 试想下面一种情况：
  - 核0读取了一个字节，根据局部性原理，它相邻的字节同样被被读入核0的缓存 (64位即一次读取64个字节)
  - 核3做了上面同样的工作，这样核0与核3的缓存拥有同样的数据
  - 核0修改了那个字节，被修改后，那个字节被写回核0的缓存，但是该信息并没有写回主存
  - 核3访问该字节，由于核0并未将数据写回主存，数据不同步
  - 为了解决这个问题，CPU制造商制定了一个规则：当一个CPU修改缓存中的字节时，服务器中其他CPU会被通知，它们的缓存将视为无效。于是，在上面的情况下，核3发现自己的缓存中数据已无效，核0将立即把自己的数据写回主存，然后核3重新读取该数据。

缓存不一致问题带来的解决方法：
- 通过在总线加LOCK#锁的方式
  - 在早期的CPU当中，是通过在总线上加LOCK#锁的形式来解决缓存不一致的问题。
  - 因为CPU和其他部件进行通信都是通过总线来进行的，如果对总线加LOCK#锁的话，也就是说阻塞了其他CPU对其他部件访问（如内存），从而使得只能有一个CPU能使用这个变量的内存。
  - 比如上面例子中如果一个线程在执行 i = i +1，如果在执行这段代码的过程中，在总线上发出了LCOK#锁的信号，那么只有等待这段代码完全执行完毕之后，其他CPU才能从变量i所在的内存读取变量，然后进行相应的操作。这样就解决了缓存不一致的问题。
  - 缺点：由于在锁住总线期间，其他CPU无法访问内存，导致 效率低下。
- 通过 缓存一致性协议 解决问题
  - 由于在总线上加LOCK，所以效率低下，因此提出了缓存一致性协议。
  - 最出名的就是Intel 的MESI协议，MESI协议保证了每个缓存中使用的共享变量的副本是一致的。
  - 它核心的思想是：当CPU写数据时，如果发现操作的变量是共享变量，即在其他CPU中也存在该变量的副本，会发出信号通知其他CPU将该变量的缓存行置为无效状态 ，因此当其他CPU需要读取这个变量时，发现自己缓存中缓存该变量的缓存行是无效的，那么它就会从内存重新读取。
- 这2种方式都是硬件层面上提供的方式。

在并发编程中，我们通常会遇到以下三个问题：原子性问题，可见性问题，有序性问题。
不清楚的可以看点击如下！！！！！
原子性
- 一个操作或者多个操作 要么全部执行并且执行的过程不会被任何因素打断，要么就都不执行。
- 一个很经典的例子就是银行账户转账问题：
  - 比如从账户A向账户B转1000元，那么必然包括2个操作：从账户A减去1000元，往账户B加上1000元。
    　　试想一下，如果这2个操作不具备原子性，会造成什么样的后果。假如从账户A减去1000元之后，操作突然中止。然后又从B 取出了500元，取出500元之后，再执行往账户B加上1000元的操作。这样就会导致账户A虽然减去了1000元，但是账户B没有收到这个转过来的1000元。所以这2个操作必须要具备原子性才能保证不出现一些意外的问题。
  - 同样地反映到并发编程中会出现什么结果呢？
    　　举个最简单的例子，大家想一下假如为一个32位的变量赋值过程不具备原子性的话，会发生什么后果？
    i = 9;假若一个线程执行到这个语句时，我暂且假设为一个32位的变量赋值包括两个过程：为低16位赋值，为高16位赋值。
    那么就可能发生一种情况：当将低16位数值写入之后，突然被中断，而此时又有一个线程去读取i的值，那么读取到的就是错误的数据。
可见性
- 指当多个线程访问同一个变量时，一个线程修改了这个变量的值，其他线程能够立即看得到修改的值
- 举个简单的例子，看下面这段代码：
- //线程1执行的代码int i = 0; i = 10; //线程2执行的代码j = i;
- 假若执行线程1的是CPU1，执行线程2的是CPU2。由上面的分析可知，当线程1执行 i =10这句时，会先把i的初始值加载到CPU1的高速缓存中，然后赋值为10，那么在CPU1的高速缓存当中i的值变为10了，却没有立即写入到主存当中。此时线程2执行 j = i，它会先去主存读取i的值并加载到CPU2的缓存当中，注意此时内存当中i的值还是0，那么就会使得j的值为0，而不是10.
有序性
- 程序执行的顺序按照代码的先后顺序执行。举个简单的例子，看下面这段代码：
- int i = 0; boolean flag = false; i = 1; //语句1 flag = true; //语句2
- 上面代码定义了一个int型变量，定义了一个boolean类型变量，然后分别对两个变量进行赋值操作。从代码顺序上看，语句1是在语句2前面的，那么JVM在真正执行这段代码的时候会保证语句1一定会在语句2前面执行吗？不一定，为什么呢？这里可能会发生指令重排序（Instruction Reorder）。
- 什么是指令重排序呢？
  - 一般来说，处理器为了提高程序运行效率，可能会对输入代码进行优化，
  - 它不保证程序中各个语句的执行先后顺序同代码中的顺序一致，但是它会保证程序最终执行结果和代码顺序执行的结果是一致的。
  - 比如上面的代码中，语句1和语句2谁先执行对最终的程序结果并没有影响，那么就有可能在执行过程中，语句2先执行而语句1后执行。但是要注意，虽然处理器会对指令进行重排序，但是它会保证程序最终结果会和代码顺序执行结果相同。
    - 那么它靠什么保证的呢？再看下面一个例子：
    - int a = 10; //语句1 int r = 2;//语句2 a = a + 3; //语句3 r = a*a; //语句4
    - 这段代码有4个语句，那么可不可能是这个执行顺序呢：语句2 语句1 语句4 语句3
    - 答：不可能，因为处理器在进行重排序时是会考虑指令之间的数据依赖性，如果一个指令Instruction 2必须用到Instruction 1的结果，那么处理器会保证Instruction 1会在Instruction 2之前执行。
    - 虽然重排序不会影响单个线程内程序执行的结果，但是多线程呢？下面看一个例子：
    - //线程1:context = loadContext(); //语句1 inited = true; //语句2 //线程2:while(!inited ) {sleep() } doSomethingwithconfig(context);
    - 上面代码中，由于语句1和语句2没有数据依赖性，因此可能会被重排序。假如发生了重排序，在线程1执行过程中先执行语句2，而此是线程2会以为初始化工作已经完成，那么就会跳出while循环，去执行doSomethingwithconfig(context)方法，而此时context并没有被初始化，就会导致程序出错。
    - 指令重排序不会影响单个线程的执行，但是会影响到线程并发执行的正确性。
    - 也就是说，要想并发程序正确地执行，必须要保证原子性、可见性以及有序性。只要有一个没有被保证，就有可能会导致程序运行不正确。

Java内存模型
- 在前面谈到了一些关于内存模型以及并发编程中可能会出现的一些问题。下面我们来看一下Java内存模型，研究一下Java内存模型为我们提供了哪些保证以及在java中提供了哪些方法和机制来让我们在进行多线程编程时能够保证程序执行的正确性。
- 在Java虚拟机规范中试图定义一种 Java内存模型（Java Memory Model，JMM） 来屏蔽各个硬件平台和操作系统的内存访问差异，以实现让Java程序在各种平台下都能达到一致的内存访问效果。那么Java内存模型规定了哪些东西呢，它定义了程序中变量的访问规则，往大一点说是定义了程序执行的次序。注意，为了获得较好的执行性能，Java内存模型并没有限制执行引擎使用处理器的寄存器或者高速缓存来提升指令执行速度，也没有限制编译器对指令进行重排序。也就是说，在java内存模型中，也会存在缓存一致性问题和指令重排序的问题。
- Java内存模型规定所有的变量都是存在主存当中（类似于前面说的物理内存），每个线程都有自己的工作内存（类似于前面的高速缓存）。线程对变量的所有操作都必须在工作内存中进行，而不能直接对主存进行操作。并且每个线程不能访问其他线程的工作内存。
- 举个简单的例子：在java中，执行下面这个语句：*i = 10;*
- 执行线程必须先在自己的工作线程中对变量i所在的缓存行进行赋值操作，然后再写入主存当中。而不是直接将数值10写入主存当中。

那么Java语言本身对原子性、可见性以及有序性提供了哪些保证呢？
原子性:
- 在Java中，对基本数据类型的变量的读取和赋值操作是原子性操作，即这些操作是不可被中断的，要么执行，要么不执行。
- 看下面一个例子：
- 请分析以下哪些操作是原子性操作：x = 10; //语句1 y = x; //语句2 x++; //语句3 x = x + 1; //语句4
  - 乍一看，有些朋友可能会说上面的4个语句中的操作都是原子性操作。其实只有语句1是原子性操作，其他三个语句都不是原子性操作。
  - 语句1是直接将数值10赋值给x，也就是说线程执行这个语句的会直接将数值10 写入到工作内存中。
  - 语句2实际上包含2个操作，它先要去读取x的值，再将x的值写入工作内存，虽然读取x的值以及将x的值写入工作内存这2个操作都是原子性操作，但是合起来就不是原子性操作了。
  - 同样的，x++和 x = x+1包括3个操作：读取x的值，进行加1操作，写入新的值。
  - 所以上面4个语句只有语句1的操作具备原子性。
  - 也就是说，只有 简单的读取、赋值（而且必须是将数字赋值给某个变量，变量之间的相互赋值不是原子操作）才是原子操作。
  - 字节码如图：
  - 不过这里有一点需要注意：在32位平台下，对64位数据的读取和赋值是需要通过两个操作来完成的，不能保证其原子性。但是好像在最新的JDK中，JVM已经保证对64位数据的读取和赋值也是原子性操作了。
  - 从上面可以看出，Java内存模型只保证了基本读取和赋值是原子性操作，如果要实现更大范围操作的原子性，可以通过synchronized和Lock来实现。由于synchronized和Lock能够保证任一时刻只有一个线程执行该代码块，那么自然就不存在原子性问题了，从而保证了原子性。
可见性:
- 对于可见性，Java提供了volatile关键字来保证可见性。
- 当一个共享变量被volatile修饰时，它会保证修改的值会立即被更新到主存，当有其他线程需要读取时，它会去内存中读取新值。
- 普通的共享变量不能保证可见性，因为普通共享变量被修改之后，什么时候被写入主存是不确定的，当其他线程去读取时，此时内存中可能还是原来的旧值，因此无法保证可见性。
- 另外，通过synchronized和Lock也能够保证可见性，synchronized和Lock能保证同一时刻只有一个线程获取锁然后执行同步代码，并且在释放锁之前会将对变量的修改刷新到主存当中。因此可以保证可见性。
有序性：
- 在Java内存模型中，允许编译器和处理器对指令进行重排序，但是重排序过程不会影响到单线程程序的执行，却会影响到多线程并发执行的正确性。
- 在Java里面，可以通过volatile关键字来保证一定的“有序性”（具体原理在下一节讲述）。另外可以通过synchronized和Lock来保证有序性， 很显然，synchronized和Lock保证每个时刻是有一个线程执行同步代码，相当于是让线程顺序执行同步代码，自然就保证了有序性。
- 另外，Java内存模型具备一些先天的“有序性”，即不需要通过任何手段就能够得到保证的有序性，这个通常也称为 happens-before 原则。如果两个操作的执行次序无法从happens-before原则推导出来，那么它们就不能保证它们的有序性，虚拟机可以随意地对它们进行重排序。
- 下面就来具体介绍下 happens-before原则（先行发生原则）：
  - 程序次序规则：一个线程内，按照代码顺序，书写在前面的操作先行发生于书写在后面的操作
  - 锁定规则： 一个unLock操作先行发生于后面对同一个锁额lock操作
  - volatile变量规则： 对一个变量的写操作先行发生于后面对这个变量的读操作 （先写后读）
  - 传递规则：如果操作A先行发生于操作B，而操作B又先行发生于操作C，则可以得出操作A先行发生于操作C
  - 线程启动规则：Thread对象的start()方法先行发生于此线程的每个一个动作
  - 线程中断规则：对线程interrupt()方法的调用先行发生于被中断线程的代码检测到中断事件的发生
  - 线程终结规则： 线程中所有的操作都先行发生于线程的终止检测，我们可以通过Thread.join()方法结束、Thread.isAlive()的返回值手段检测到线程已经终止执行
  - 对象终结规则：一个对象的初始化完成先行发生于他的finalize()方法的开始
  - 这8条原则摘自《深入理解Java虚拟机》。
    - 这8条规则中，前4条规则是比较重要的，后4条规则都是显而易见的。
    - 下面我们来解释一下前4条规则：
    - 对于程序次序规则来说，我的理解就是一段程序代码的执行在单个线程中看起来是有序的。注意，虽然这条规则中提到“书写在前面的操作先行发生于书写在后面的操作”，这个应该是程序看起来执行的顺序是按照代码顺序执行的，因为虚拟机可能会对程序代码进行指令重排序。虽然进行重排序，但是最终执行的结果是与程序顺序执行的结果一致的，它只会对不存在数据依赖性的指令进行重排序。因此，在单个线程中，程序执行看起来是有序执行的，这一点要注意理解。事实上，这个规则是用来保证程序在单线程中执行结果的正确性，但无法保证程序在多线程中执行的正确性。
    - 第二条规则也比较容易理解，也就是说无论在单线程中还是多线程中，同一个锁如果出于被锁定的状态，那么必须先对锁进行了释放操作，后面才能继续进行lock操作 (先加锁后去锁)。
    - 第三条规则是一条比较重要的规则，也是后文将要重点讲述的内容。直观地解释就是，如果一个线程先去写一个变量，然后一个线程去进行读取，那么写入操作肯定会先行发生于读操作。
    - 第四条规则实际上就是体现happens-before原则具备传递性。
下面我们进入正题，以上都是volatile的铺垫

volatile关键字的两层语义
- 一旦一个共享变量（类的成员变量、类的静态成员变量）被volatile修饰之后，那么就具备了两层语义：
  - 保证了不同线程对这个变量进行操作时的可见性，即一个线程修改了某个变量的值，这新值对其他线程来说是立即可见的。
  - 禁止进行指令重排序。

package com.wwj.text;

public class VolatileDemo {
    public static void main(String[] args){
        //线程1
        boolean stop = false;
        while(!stop){
            doSomething();
        }
        //线程2
        stop = true;

    }
    public  static void doSomething(){};
}

代码分析：
- 这段代码是很典型的一段代码，很多人在中断线程时可能都会采用这种标记办法。但是事实上，这段代码会完全运行正确么？即一定会将线程中断么？
- 不一定，也许在大多数时候，这个代码能够把线程中断，但是也有可能会导致无法中断线程（虽然这个可能性很小，但是只要一旦发生这种情况就会造成死循环了）。
- 下面解释一下这段代码为何有可能导致无法中断线程：
- 每个线程在运行过程中都有自己的工作内存，那么线程1在运行的时候，会将stop变量的值拷贝一份放在自己的工作内存当中。那么当线程2更改了stop变量的值之后，还没来得及写入主存当中就被中断或者转去做其他事情了，那么线程1由于不知道线程2对stop变量的更改，因此还会一直循环下去。
- 但是用volatile修饰之后就变得不一样了：
  - 第一步：使用volatile关键字会强制将修改的值立即写入主存；
  - 第二步：使用volatile关键字的话，当线程2进行修改时，会导致线程1的工作内存中缓存变量stop的缓存行无效（反映到硬件层的话，就是CPU的L1或者L2缓存中对应的缓存行无效）；
  - 第三步：由于线程1的工作内存中缓存变量stop的缓存行无效，所以线程1再次读取变量stop的值时会去主存读取。
  - 那么在线程2修改stop值时（当然这里包括2个操作，修改线程2工作内存中的值，然后将修改后的值写入内存），会使得线程1的工作内存中缓存变量stop的缓存行无效，然后线程1读取时，发现自己的缓存行无效，它会等待缓存行对应的主存地址被更新之后，然后去对应的主存读取最新的值。那么线程1读取到的就是最新的正确的值。

通过volatile的两层语义可以知道volatile保证了操作的可见性。
volatile保证原子性吗？
- 通过例子进行分析：

package com.wwj.text;

public class VolatileDemo {
    public volatile int inc = 0;
    public void increase(){
        inc++;
    }
    public static void main(String[] args) throws  InterruptedException{
            final  VolatileDemo volatileDemo = new VolatileDemo();
            for(int i =0 ; i<10 ; i++){
                new Thread(){
                    @Override
                    public void run() {
                        for(int i=0 ; i<1000 ; i++){
                            volatileDemo.increase();
                        }
                    };
                }.start();
            }
            //while(Thread.activeCount()>1){   //活跃线程>1的时候，我们让主线程等待
                System.out.println(Thread.currentThread().getName());
                Thread.sleep(5000);   //也可以让main线程睡眠5秒等待别的完成进行完
                Thread.yield();
                System.out.println(volatileDemo.inc);
            //}
    }
}

结果如下：main 9754
这里说一个问题：while(Thread.activeCount()>1)如果这样写，那么输出结果一直在循环，是因为如果别的子线程执行完了，剩下的不是1个线程，而是2个，一个main线程还有一个别的。
结果分析：
- 理想情况下，输出的inc应该是1000*10=10000，但是我们发现只有9754，这是为什么？
- volatile关键字能保证可见性，但是没有保证原子性。可见性只能保证每次读写的是最新值，但是volatile没办法保证对变量的操作的原子性。
- 在前面已经提到过，自增操作是不具备原子性的，它包括三步骤：
  - 第一步：从内存中读取x的原值进入工作内存
  - 第二步:在工作内存中加1操作
  - 第三步：将其返回内存
  - 这时候说明了一个问题x++对应的字节码只有一条，这就说明字节码不能完全说明是否是原子性操作，需要通过内存模型JMM理解
- 自增操作的三个子操作可能会割开执行，就有可能导致下面这种情况出现：
  - 比如某个时刻，inc==10，这时候线程1把inc从内存中复制到工作内存，然后对其进行+1操作，但是这个时候被阻塞了，然后线程2同样从内存中取inc，然后对其加1，将11返回到内存中，这时候线程1恢复，同样返回11到内存中，这时候内存中inc ==12，但此时只增加了1，也就是11。
  - 解释到这里，可能有朋友会有疑问，不对啊，前面不是保证一个变量在修改volatile变量时，会让缓存行无效吗？ 然后其他线程去读就会读到新的值，对，这个没错。这个就是上面的happens-before规则中的volatile变量规则，但是要注意，线程1对变量进行读取操作之后，被阻塞了的话，并没有对inc值进行修改。**然后虽然volatile能保证线程2对变量inc的值读取是从内存中读取的，但是线程1没有进行修改，所以线程2根本就不会看到修改的值。
- 因此我们可以知道，自增操作不是原子性操作，并且volatile也无法保证对变量的任何操作都是原子性。
- 对这个示例的三种改进：
  - 通过synchronized解决：
  - - 结果：main 10000
  - 通过lock解决：
    - 结果：main 10000
  - 通过AtomicInteger解决：
  - 结果：main 10000
- 在java 1.5的java.util.concurrent.atomic（JUC） 包下提供了一些原子操作类，即对基本数据类型的自增（加1操作），自减（减1操作）、以及加法操作（加一个数），减法操作（减一个数）进行了封装，保证这些操作是原子性操作。atomic是利用CAS来实现原子性操作的（Compare And Swap），CAS实际上是利用处理器提供的 CMPXCHG指令实现的，而处理器执CMPXCHG指令是一个 原子性操作。

atomic、CAS后续会分析、记得之前看的CAS好像和volatile也有关系后续blog总结！！！！

volatile能保证有序性吗？
- 在前面提到volatile关键字的两个语义之一能禁止指令重排序，所以volatile能在一定程度上保证有序性。
- volatile关键字禁止指令重排序有两层意思：
  - 当程序执行到volatile变量的读操作或者写操作时，在其前面的操作的更改肯定全部已经进行，且结果已经对后面的操作可见；在其后面的操作肯定还没有进行；
  - 在进行指令优化时，不能将在对volatile变量访问的语句放在其后面执行，也不能把volatile变量后面的语句放到其前面执行。
- 可能上面说的比较绕，举个简单的例子
  - 由于flag变量为volatile变量，那么在进行指令重排序的过程的时候，不会将语句3放到语句1、语句2前面，也不会将语句3放到语句4、语句5后面。但是要注意语句1和语句2的顺序、语句4和语句5的顺序是不作任何保证的。
  - 并且volatile关键字能保证，执行到语句3时，语句1和语句2必定是执行完毕了的，且语句1和语句2的执行结果对语句3、语句4、语句5是可见的。
- 再看一个例子：
  - 代码分析：根据重排序，语句2可能在语句1之前执行，那么就可能导致context还没有被加载，就被线程二用来操作，这时候显然是出错了
  - 这里如果用volatile关键字对inited变量进行修饰，就不会出现这种问题了，因为当执行到语句2时，必定能保证context已经初始化完毕。

volatile的原理和实现机制
- 前面讲述了源于volatile关键字的一些使用，
- 下面我们来探讨一下volatile到底如何保证可见性和禁止指令重排序的。
- 观察加入volatile关键字和没有加入volatile关键字时所生成的汇编代码发现，加入volatile关键字时，会多出一个lock前缀指令（不是API层次的，是汇编，机器码，即硬件层次）”
- lock前缀指令实际上相当于一个 内存屏障（也成内存栅栏），内存屏障会提供3个功能：
  - 它确保指令重排序时不会把其后面的指令排到内存屏障之前的位置，也不会把前面的指令排到内存屏障的后面；即在执行到内存屏障这句指令时，在它前面的操作已经全部完成；
  - 它会强制将对缓存的修改操作立即写入主存；
  - 如果是写操作，它会导致其他CPU中对应的缓存行无效。

volatile的字节码及汇编语言分析！！！！！！
- 在volatile的原理和实现机制中可看到，加入volatile后生成的"汇编代码"有相应的lock指令，那具体是什么样的呢？字节码有什么变化呢？
- 字节码层面：
  - 通过代码分析可知： volatile在字节码层面是看不出怎么发挥volatile的作用的，因此我们要进一步看其汇编语言。
  - 通过虚拟机将字节码编译成汇编语言然后传给CPU（具体怎么看相应汇编语言，还是去看仓颉大佬的blog吧，点击进入！！！！）（hsdis工具）
- 汇编（机器码）层面：
  - 0x0000000002931351: lock add dword ptr [rsp],0h ;*putstatic instance
    ; - org.xrq.test.design.singleton.LazySingleton::getInstance@13 (line 14)
  - 以上就是两行相应的汇编语言：这里结尾写明了line 14，line 14即volatile变量instance赋值的地方。
  - 后面的add dword ptr [rsp],0h都是正常的汇编语句，意思是将双字节的栈指针寄存器+0，这里的关键就是add前面的lock指令，
  - 后面详细分析一下lock指令的作用和为什么加上lock指令后就能保证volatile关键字的内存可见性。

volatile的底层汇编中lock指令究竟做了什么？？？？
- 我们使用的PC机、应用服务器的CPU架构通常都是 IA-32架构（英特尔32位体系架构） 的，这种架构采用的指令集是CISC（复杂指令集），而汇编语言则是这种指令集的助记符。
- 这里查询一下IA-32手册关于lock指令的描述，没有IA-32手册的可以去这个地址下载，IA-32手册下载地址（这里我没看……）
- 在IA-32手册中关于lock指令作用的一些描述：
反复思考IA-32手册对lock指令作用的这几段描述，可以得出lock指令的几个作用：
- 锁总线，其它CPU对内存的读写请求都会被阻塞，直到锁释放，不过实际后来的处理器都采用锁缓存替代锁总线，因为锁总线的开销比较大，锁总线期间其他CPU没法访问内存
- lock后的写操作会回写已修改的数据，同时让其它CPU相关缓存行失效，从而重新从主存中加载最新的数据
- 不是内存屏障却能完成类似内存屏障的功能，阻止屏障两边的指令重排序
- （1）中写了由于效率问题，实际后来的处理器都采用锁缓存来替代锁总线，这种场景下多缓存的数据一致是通过缓存一致性协议来保证的，我们来看更加深入的理解什么是缓存一致性协议。

缓存一致性协议：
- 可能大家发现上文中在讲缓存一致性问题有一个名次叫"缓存行"，所以我们先说一说缓存行的概念：
  - 缓存是分段（line）的，一个段对应一块存储空间，我们称之为缓存行，它是 CPU缓存中可分配的最小存储单元，
  - 大小32字节、64字节、128字节不等，这与CPU架构有关，通常来说是64字节。
  - 当CPU看到一条读取内存的指令时，它会把内存地址传递给一级数据缓存，一级数据缓存会检查它是否有这个内存地址对应的缓存段，如果没有就把整个缓存段从内存（或更高一级的缓存）中加载进来。注意，这里说的是一次加载整个缓存段，这就是上面提过的局部性原理
- 文中前面已经提及，LOCK#会锁总线，实际上这不现实，因为锁总线效率太低了。因此最好能做到：使用多组缓存， 但是它们的行为看起来只有一组缓存那样。缓存一致性协议就是为了做到这一点而设计的，就像名称所暗示的那样，这类协议就是要使多组缓存的内容保持一致。
- 缓存一致性协议有多种，但是日常处理的大多数计算机设备都属于 "嗅探（snooping）"协议 ，它的基本思想是：
  - 所有内存的传输都发生在一条共享的总线上，而所有的处理器都能看到这条总线：缓存本身是独立的，但是内存是共享资源，所有的内存访问都要经过仲裁（同一个指令周期中，只有一个CPU缓存可以读写内存）。
  - CPU缓存不仅仅在做内存传输的时候才与总线打交道，而是不停在嗅探总线上发生的数据交换，跟踪其他缓存在做什么。所以当一个缓存代表它所属的处理器去读写内存时，其它处理器都会得到通知，它们以此来使自己的缓存保持同步。这时只要某个处理器一写内存，其它处理器马上知道这块内存在它们的缓存段中已失效。
- MESI协议是当前最主流的缓存一致性协议，在MESI协议中，每个缓存行有4个状态，可用2个bit表示，它们分别是：
  - 这里的I、S和M状态已经有了对应的概念：失效/未载入、干净以及脏的缓存段。
  - 所以这里新的知识点只有E状态，代表独占式访问，这个状态解决了"在我们开始修改某块内存之前，我们需要告诉其它处理器"这一问题：只有当缓存行处于E或者M状态时，处理器才能去写它，也就是说只有在这两种状态下，处理器是独占这个缓存行的。
  - 当处理器想写某个缓存行时，如果它没有独占权，它必须先发送一条"我要独占权"的请求给总线，这会通知其它处理器把它们拥有的同一缓存段（如果有）的拷贝失效。（也就是说，当我们要修改某个变量，要在让变量所在内存地址的缓存行为E状态，让其独占这个缓存行，如果别的处理器有则让他们失效）
  - 只有在获得独占权后，处理器才能开始修改数据----并且此时这个处理器知道，这个缓存行只有一份拷贝，在我自己的缓存里，所以不会有任何冲突。
  - 反之，如果有其它处理器想读取这个缓存行（马上能知道，因为一直在嗅探总线），独占或已修改的缓存行必须先回到"共享"状态。如果是已修改的缓存行，那么还要先把内容回写到内存中。

由lock指令回看volatile变量读写
- 通过深入了解了lock指令，我们重新回顾volatile的实现原理：
- 工作内存（Work Memory）其实就是对CPU寄存器和高速缓存的抽象，或者说每个线程的工作内存也可以简单理解为CPU寄存器和高速缓存。
- 那么当写两条线程Thread-A与Threab-B同时操作主存中的一个volatile变量i时，Thread-A 写了变量i，那么：
  - Thread-A发出LOCK#指令
  - 发出的LOCK#指令锁总线（或锁缓存行），同时让Thread-B高速缓存中的缓存行内容失效
  - Thread-A向主存回写最新修改的i
  - Thread-B读取变量i，那么： Thread-B发现对应地址的缓存行被锁了，等待锁的释放，缓存一致性协议会保证它读取到最新的值
- 由此可以看出，volatile关键字的读和普通变量的读取相比基本没差别，差别主要还是在变量的写操作上。

使用volatile关键字的场景
- synchronized关键字是防止多个线程同时执行一段代码，那么就会很影响程序执行效率
- volatile关键字在某些情况下性能要优于synchronized， 但是要注意volatile关键字是无法替代synchronized关键字的，因为 volatile关键字无法保证操作的原子性。
- 通常来说，使用volatile必须具备以下2个条件：
  - 对变量的写操作不依赖于当前值
  - 该变量没有包含在具有其他变量的不变式中
  - 实际上，这些条件表明，可以被写入 volatile 变量的这些有效值独立于任何程序的状态，包括变量的当前状态。
  - 事实上，我的理解就是上面的2个条件需要保证操作是原子性操作，才能保证使用volatile关键字的程序在并发时能够正确执行。
下面列举几个Java中使用volatile的几个场景
- 适用场景1：状态标记量
- 适应场景2：double check