Java Virtual Machine(Java虚拟机)
JVM全称是Java Virtual Machine(Java虚拟机),Java虚拟机是一种程序虚拟机(相对操作系统虚拟机),Java的运行环境实现跨平台。
JVM简介
JVM是Java Virtual Machine(Java虚拟机)的缩写,JVM是一种用于计算设备的规范,它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。
Java虚拟机包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收堆和一个存储方法域。
JVM屏蔽了与具体操作系统平台相关的信息,使Java程序只需生成在Java虚拟机上运行的目标代码 (字节码),就可以在多种平台上不加修改地运行。
JVM在执行字节码时,实际上最终还是把字节码解释成具体平台上的机器指令执行。
JVM是JRE的一部分。它是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能来实现的。JVM有自己完善的硬件架构,如处理器、堆栈、寄存器等,还具有相应的指令系统。Java语言最重要的特点就是跨平台运行。使用JVM就是为了支持与操作系统无关,实现跨平台。
JVM作用
Java中的所有类,必须被装载到JVM中才能运行,这个装载工作是由jvm中的类装载器完成的,类装载器所做的工作实质是把类文件从硬盘读取到内存中。
JVM对中央处理器(CPU)所执行的一种软件操作,用于执行编译过的Java程序码(Applet与应用程序)。
JVM就是我们常说的java虚拟机,它是整个java实现跨平台的最核心的部分,所有的java程序会首先被编译为.class的类文件,这种类文件可以在虚拟机上执行。*(也就是说class并不直接与机器的操作系统相对应,而是经过虚拟机间接与操作系统交互,由虚拟机将程序解释给本地系统执行。)
当然只有JVM还不能成class的执行,因为在解释class的时候JVM需要调用解释所需要的类库lib,而jre包含lib类库。
JVM特性
移植性
实际上,由于Java和OpenJDK项目的开源,我们正在看到越来越多的平台的衍生,因此JVM的移植性也将越来越棒。
成熟
JVM已有超过15年的历史,在过去的这些年里,许多开发者为它做出了许多贡献,使得它的性能一次又一次地提升,让JVM变得更加稳定、快速和广泛。
覆盖面
JVM已不再是Java一个人定制规则。JVM正在构建成为类如JRuby等项目的优良平台。
承接上文操作系统,jvm与操作系统的关系。承上启下。
JVM的架构图(1)类加载器子系统(2)运行时数据区(3)执行引擎
类加载子系统
Bootstrap classLoader
引导类加载器,也被称为启动类加载器,最上级的角色,用C语言编写,用来加载一些核心的类,如JAVA_HOME/jre/lib/rt.jar、resource.jar,提供JVM自身所需要的类。
Extension classLoader
扩展类加载器,派生于ClassLoader类,由Java语言编写,加载核心包以外的内容,如用户建的Jar包放在jre/lib/ext目录下,也会被扩展类加载器所加载。
AppClassLoader
系统类加载器,一般来讲我们定义的类都是由它来加载的,也是程序中的默认加载器。
在某些情况下,我们确实需要自定义加载器,如隔离加载类,修改鳄梨加载方式,防止源码泄漏等,详细内容将放在后面讲。
双亲委派
具体流程分为三步。
1.当一个类收到了加载请求,并不会直接去加载,而是由他的父类加载器去执行
2.父类加载器如果还有上级,就在向上委托,知道最上级为止
3.如果顶层的加载器能够完成加载当然最好,如果不能,再交由子类加载器去处理。
类加载的过程
加载
双亲委派 父级代理更为形象。
链接
(1)校验 – 字节码校验器会校验生成的字节码是否正确,如果校验失败,我们会得到校验错误。
(2)准备 – 分配内存并初始化默认值给所有的静态变量。
(3)解析 – 所有符号内存引用被方法区(Method Area)的原始引用所替代。
初始化
这是类加载的最后阶段,这里所有的静态变量会被赋初始值, 并且静态块将被执行。
运行时数据区
运行时数据区域被划分为5个主要组件:
方法区(Method Area)
所有类级别数据将被存储在这里,包括静态变量。每个JVM只有一个方法区,它是一个共享的资源。
堆区(Heap Area)
所有的对象和它们相应的实例变量以及数组将被存储在这里。每个JVM同样只有一个堆区。由于方法区和堆区的内存由多个线程共享,所以存储的数据不是线程安全的。
栈区(Stack Area)
对每个线程会单独创建一个运行时栈。对每个函数呼叫会在栈内存生成一个栈帧(Stack Frame)。所有的局部变量将在栈内存中创建。栈区是线程安全的,因为它不是一个共享资源。栈帧被分为三个子实体:
a 局部变量数组 – 包含多少个与方法相关的局部变量并且相应的值将被存储在这里。
b 操作数栈 – 如果需要执行任何中间操作,操作数栈作为运行时工作区去执行指令。
c 帧数据 – 方法的所有符号都保存在这里。在任意异常的情况下,catch块的信息将会被保存在帧数据里面。
PC寄存器
每个线程都有一个单独的PC寄存器来保存当前执行指令的地址,一旦该指令被执行,pc寄存器会被更新至下条指令的地址。
本地方法栈
本地方法栈保存本地方法信息。对每一个线程,将创建一个单独的本地方法栈。
执行引擎
分配给运行时数据区的字节码将由执行引擎执行。执行引擎读取字节码并逐段执行。
解释器:解释器能快速的解释字节码,但执行却很慢。 解释器的缺点就是,当一个方法被调用多次,每次都需要重新解释。
编译器
JIT编译器消除了解释器的缺点。执行引擎利用解释器转换字节码,但如果是重复的代码则使用JIT编译器将全部字节码编译成本机代码。本机代码将直接用于重复的方法调用,这提高了系统的性能。
a. 中间代码生成器 – 生成中间代码
b. 代码优化器 – 负责优化上面生成的中间代码
c. 目标代码生成器 – 负责生成机器代码或本机代码
d. 探测器(Profiler) – 一个特殊的组件,负责寻找被多次调用的方法。
Java本地接口 (JNI): JNI 会与本地方法库进行交互并提供执行引擎所需的本地库。
本地方法库:它是一个执行引擎所需的本地库的集合。
垃圾回收机制
什么时垃圾?
在 JVM 进行垃圾回收之前,首先就是判断哪些对象是垃圾,也就是说,要判断哪些对象是可以被销毁的,其占有的空间是可以被回收的。根据 JVM 的架构划分,我们知道, 在 Java 世界中,几乎所有的对象实例都在堆中存放,所以垃圾回收也主要是针对堆来进行的。
在 JVM 的眼中,垃圾就是指那些在堆中存在的,已经“死亡”的对象。而对于“死亡”的定义,我们可以简单的将其理解为“不可能再被任何途径使用的对象”。那怎样才能确定一个对象是存活还是死亡呢?这就涉及到了垃圾判断算法,其主要包括引用计数法和可达性分析法。
引用计数法:对象一旦被引用有了用处标记算法每个对象的引用计数器就会变化。
当一个对象被当做垃圾收集时,它引用的任何对象的计数器的值都减 1。
- 优点:引用计数法实现起来比较简单,对程序不被长时间打断的实时环境比较有利。
- 缺点:需要额外的空间来存储计数器,难以检测出对象之间的循环引用。
可达性分析法:从主线程创建的对象开始向下搜索
可达性分析法也被称之为根搜索法,可达性是指,如果一个对象会被至少一个在程序中的变量通过直接或间接的方式被其他可达的对象引用,则称该对象就是可达的。更准确的说,一个对象只有满足下述两个条件之一,就会被判断为可达的:
- 对象是属于根集中的对象
- 对象被一个可达的对象引用
垃圾回收算法
标记-清除算法
标记-清除(Tracing Collector)算法是最基础的收集算法,为了解决引用计数法的问题而提出。它使用了根集的概念,它分为“标记”和“清除”两个阶段:首先标记出所需回收的对象,在标记完成后统一回收掉所有被标记的对象,它的标记过程其实就是前面的可达性分析法中判定垃圾对象的标记过程。
优点:不需要进行对象的移动,并且仅对不存活的对象进行处理,在存活对象比较多的情况下极为高效。
缺点:标记和清除过程的效率都不高,这种方法需要使用一个空闲列表来记录所有的空闲区域以及大小,对空闲列表的管理会增加分配对象时的工作量;标记清除后会产生大量不连续的内存碎片,虽然空闲区域的大小是足够的,但却可能没有一个单一区域能够满足这次分配所需的大小,因此本次分配还是会失败,不得不触发另一次垃圾收集动作。
标记-整理算法
标记-整理(Compacting Collector)算法标记的过程与“标记-清除”算法中的标记过程一样,但对标记后出的垃圾对象的处理情况有所不同,它不是直接对可回收对象进行清理,而是让所有的对象都向一端移动,然后直接清理掉端边界以外的内存。在基于“标记-整理”算法的收集器的实现中,一般增加句柄和句柄表。
优点:经过整理之后,新对象的分配只需要通过指针碰撞便能完成,比较简单;使用这种方法,空闲区域的位置是始终可知的,也不会再有碎片的问题了。
缺点:GC 暂停的时间会增长,因为你需要将所有的对象都拷贝到一个新的地方,还得更新它们的引用地址。
复制算法
复制(Copying Collector)算法的提出是为了克服句柄的开销和解决堆碎片的垃圾回收。它将内存按容量分为大小相等的两块,每次只使用其中的一块(对象面),当这一块的内存用完了,就将还存活着的对象复制到另外一块内存上面(空闲面),然后再把已使用过的内存空间一次清理掉。
复制算法比较适合于新生代(短生存期的对象),在老年代(长生存期的对象)中,对象存活率比较高,如果执行较多的复制操作,效率将会变低,所以老年代一般会选用其他算法,如“标记-整理”算法。一种典型的基于复制算法的垃圾回收是stop-and-copy算法,它将堆分成对象区和空闲区,在对象区与空闲区的切换过程中,程序暂停执行。
优点:标记阶段和复制阶段可以同时进行;每次只对一块内存进行回收,运行高效;只需移动栈顶指针,按顺序分配内存即可,实现简单;内存回收时不用考虑内存碎片的出现。
缺点:需要一块能容纳下所有存活对象的额外的内存空间。因此,可一次性分配的最大内存缩小了一半。
分代收集算法
分代收集(Generational Collector)算法的将堆内存划分为新生代、老年代和永久代。新生代又被进一步划分为 Eden 和 Survivor 区,其中 Survivor 由 FromSpace(Survivor0)和 ToSpace(Survivor1)组成。所有通过new创建的对象的内存都在堆中分配,其大小可以通过-Xmx和-Xms来控制。分代收集,是基于这样一个事实:不同的对象的生命周期是不一样的。因此,可以将不同生命周期的对象分代,不同的代采取不同的回收算法进行垃圾回收,以便提高回收效率。
堆内存划分
- 堆内存被划分为
两块
,一块的年轻代
,另一块是老年代
。 - 年轻代又分为
Eden
和survivor
。他俩空间大小比例默认为8:2, - 幸存区又分为
s0
和s1
。这两个空间大小是一模一样的,就是一对双胞胎,他俩是1:1的比例
第一步
新生成
的对象首先放到Eden
区,当Eden区满了
会触发Minor GC
。
第二步
第一步GC活下来的对象,会被移动到survivor
区中的S0区,S0区满了之后会触发Minor GC
,S0区存活下来的对象会被移动到S1区,S0区空闲。
S1满了之后在GC,存活下来的再次移动到S0区,S1区空闲,这样反反复复GC,每GC一次,对象的年龄就涨一岁
,达到某个值后(15),就会进入老年代
。
第三步
在发生一次Minor GC
后(前提条件),老年代可能会出现Major GC
,这个视垃圾回收器而定。
Full GC触发条件
- 手动调用System.gc,会不断的执行Full GC
- 老年代空间不足/满了
- 方法区空间不足/满了
注意stop-the-world
们需要记住一个单词:stop-the-world
。它会在任何一种GC算法中发生。stop-the-world 意味着JVM因为需要执行GC而停止
应用程序的执行。
当stop-the-world 发生时,除GC所需的线程外,所有的线程
都进入等待
状态,直到GC任务完成。GC优化很多时候就是减少stop-the-world 的发生。
回收哪些区域的对象
需要注意的是,JVM GC只回收堆内存
和方法区内
的对象。而栈内存
的数据,在超出作用域后会被JVM自动释放掉,所以其不在JVM GC的管理范围内。
堆内存常见参数配置(调优时用到)
参数 | 描述 |
---|---|
-Xms | 堆内存初始大小,单位m、g |
-Xmx | 堆内存最大允许大小,一般不要大于物理内存的80% |
-XX:PermSize | 非堆内存初始大小,一般应用设置初始化200m,最大1024m就够了 |
-XX:MaxPermSize | 非堆内存最大允许大小 |
-XX:NewSize(-Xns) | 年轻代内存初始大小 |
-XX:MaxNewSize(-Xmn) | 年轻代内存最大允许大小 |
-XX:SurvivorRatio=8 | 年轻代中Eden区与Survivor区的容量比例值,默认为8,即8:1 |
-Xss | 堆栈内存大小 |
-XX:NewRatio=老年代/新生代 | 设置老年代和新生代的大小比例 |
-XX:+PrintGC | jvm启动后,只要遇到GC就会打印日志 |
-XX:+PrintGCDetails | 查看GC详细信息,包括各个区的情况 |
-XX:MaxDirectMemorySize | 在NIO中可以直接访问直接内存,这个就是设置它的大小,不设置默认就是最大堆空间的值-Xmx |
-XX:+DisableExplicitGC | 关闭System.gc() |
-XX:MaxTenuringThreshold | 垃圾可以进入老年代的年龄 |
-Xnoclassgc | 禁用垃圾回收 |
-XX:TLABWasteTargetPercent | TLAB占eden区的百分比,默认是1% |
-XX:+CollectGen0First | FullGC时是否先YGC,默认false |
新生代和老年代配对垃圾回收器
Serial 垃圾回收器
Serial收集器是最基本的、发展历史最悠久的收集器。俗称为:
串行回收器
,采用复制算法
进行垃圾回收特点
串行回收器是指使用单线程进行垃圾回收的回收器。每次回收时,串行回收器只有一个工作线程。
对于并行能力较弱的单CPU计算机来说,串行回收器的专注性和独占性往往有更好的性能表现。
它存在Stop The World问题,及垃圾回收时,要停止程序的运行。
使用
-XX:+UseSerialGC
参数可以设置新生代使用这个串行回收器SerialOld 垃圾回收器
SerialOld是Serial回收器的
老年代
回收器版本,它同样是一个单线程
回收器。用途
- 一个是在JDK1.5及之前的版本中与Parallel Scavenge收集器搭配使用,
- 另一个就是作为CMS收集器的后备预案,如果CMS出现Concurrent Mode Failure,则SerialOld将作为后备收集器。
使用算法
:标记 - 整理算法
ParNew 垃圾回收器
ParNew其实就是Serial的
多线程
版本,除了使用多线程之外,其余参数和Serial一模一样。俗称:并行垃圾回收器
,采用复制算法
进行垃圾回收特点
ParNew默认开启的线程数与CPU数量相同,在CPU核数很多的机器上,可以通过参数
-XX:ParallelGCThreads
来设置线程数。它是目前新生代首选的垃圾回收器,因为除了ParNew之外,它是唯一一个能与老年代CMS配合工作的。
它同样存在Stop The World问题
使用
-XX:+UseParNewGC
参数可以设置新生代使用这个并行回收器CMS 回收器
CMS全称为:Concurrent Mark Sweep意为并发标记清除,他使用的是
标记清除法
。主要关注系统停顿时间。使用
-XX:+UseConcMarkSweepGC
进行设置老年代使用该回收器。使用
-XX:ConcGCThreads
设置并发线程数量。特点
CMS并不是独占的回收器,也就说CMS回收的过程中,应用程序仍然在不停的工作,又会有新的垃圾不断的产生,所以在使用CMS的过程中应该确保应用程序的内存足够可用。
CMS不会等到应用程序
饱和
的时候才去回收垃圾,而是在某一阀值的时候开始回收,回收阀值可用指定的参数进行配置:-XX:CMSInitiatingoccupancyFraction
来指定,默认为68
,也就是说当老年代的空间使用率
达到68%
的时候,会执行
CMS回收。如果内存使用率增长的很快,在CMS执行的过程中,已经出现了内存不足的情况,此时CMS回收就会失败,虚拟机将启动老年代
串行
回收器;SerialOldGC
进行垃圾回收,这会导致应用程序中断,直到垃圾回收完成后才会正常工作。这个过程GC的停顿时间可能较长,所以
-XX:CMSInitiatingoccupancyFraction
的设置要根据实际的情况。之前我们在学习算法的时候说过,标记清除法有个缺点就是存在
内存碎片
的问题,那么CMS有个参数设置-XX:+UseCMSCompactAtFullCollecion
可以使CMS回收完成之后进行一次碎片整理
。
-XX:CMSFullGCsBeforeCompaction
参数可以设置进行多少次CMS回收之后,对内存进行一次压缩
。
ParallelGC 回收器
ParallelGC使用复制算法回收垃圾,也是多线程的。特点
就是非常关注系统的吞吐量,吞吐量=代码运行时间/(代码运行时间+垃圾收集时间)
-XX:MaxGCPauseMillis:设置最大垃圾收集停顿时间,可用把虚拟机在GC停顿的时间控制在MaxGCPauseMillis范围内,如果希望减少GC停顿时间可以将MaxGCPauseMillis设置的很小,但是会导致GC频繁,从而增加了GC的总时间,降低了吞吐量。所以需要根据实际情况设置该值。
-Xx:GCTimeRatio:设置吞吐量大小,它是一个0到100之间的整数,默认情况下他的取值是99,那么系统将花费不超过1/(1+n)的时间用于垃圾回收,也就是1/(1+99)=1%的时间。
另外还可以指定-XX:+UseAdaptiveSizePolicy打开自适应模式,在这种模式下,新生代的大小、eden、from/to的比例,以及晋升老年代的对象年龄参数会被自动调整,以达到在堆大小、吞吐量和停顿时间之间的平衡点。
使用-XX:+UseParallelGC参数可以设置新生代使用这个并行回收器
ParallelOldGC 回收器
老年代ParallelOldGC回收器也是一种多线程的回收器,和新生代的ParallelGC回收器一样,也是一种关注吞吐量的回收器,他使用了标记压缩算法进行实现。-XX:+UseParallelOldGc进行设置老年代使用该回收器
-XX:+ParallelGCThreads也可以设置垃圾收集时的线程数量。
JDK17默认G1 收集器
G1垃圾回收器
G1依然属于分代型垃圾收集器,它不区分年轻代和老年代,年轻代依然有Eden区和Survivor区。但从堆的结构上看,它不要求整个Eden区、年轻代或者老年代都是连续的,也不再坚持固定大小和固定数量。
跟CMS一样用到的三色标记算法。但是对于问题的解决方案不同(当B对D的引用消失,同时A对D产生链接,因为A是黑色不会在检查,所以不会发现A对D的链接,会把D当垃圾处理。)
CMS是采用全局观察,当一个黑色对白色产生引用时,将黑色变为灰色。
G1采用STAB 就是记录消失的链接,比如B到D的消失了,就会记录下这个联系,等gc线程工作的时候就去检查D 有没有黑色的指向,没有就是垃圾。
使用G1收集器时,它将整个Java堆划分成2048个大小相同的独立Region块,每个Region块大小根据堆空间的实际大小而定,整个被控制在1MB到32MB之间,且为2的N次幂,即1MB、2MB、4MB、8MB、16MB、32MB、可以通过-XX:G1HeapRegionSize设定。所有的Region大小相同,且在JVM生命周期内不会被改变