什么是垃圾?
在 JVM 进行垃圾回收之前,首先就是判断哪些对象是垃圾,也就是说,要判断哪些对象是可以被销毁的,其占有的空间是可以被回收的。根据 JVM 的架构划分,我们知道, 在 Java 世界中,几乎所有的对象实例都在堆中存放,所以垃圾回收也主要是针对堆来进行的。
更直接的说法就是:垃圾就是不可能再被任何途径使用的对象。
因为这些对象不会再被使用,也就没有了存在意义,自然是需要被清理掉的。
垃圾判断算法
确定一个对象是存活还是死亡主要有两种垃圾判断算法:引用计数法和可达性算法。
引用计数法
在这种算法中,假设堆中每个对象(不是引用)都有一个引用计数器。当一个对象被创建并赋初值后,该对象的技术器就设置为1。然后每当该对象被一个地方引用,计数器就加一;当这个对象的某个引用超过了生命周期(出作用域后)或者被设置为新的值时,原本引用的对象就减一。
这样等某个对象的计数器为0的时候,就是没有其他地方引用他的情况了,这个时候该对象就称为了我们所说的垃圾,需要我们回收掉。
同时当一个对象被当做垃圾收集时,它引用的任何对象的计数器的值都减 1。
- 优点:引用计数法实现起来比较简单,对程序不被长时间打断的实时环境比较有利。
- 缺点:需要额外的空间来存储计数器,难以检测出对象之间的循环引用。
可达性算法
在这里我们需要先了解一下根集的概念。
根集是指正在执行的 Java 程序可以访问的引用变量(注意,不是对象)的集合,程序可以使用引用变量访问对象的属性和调用对象的方法。
在 JVM 中,会将以下对象标记为根集中的对象,具体包括:
- 虚拟机栈(栈帧中的本地变量表)中引用的对象
- 方法区中的常量引用的对象
- 方法区中的类静态属性引用的对象
- 本地方法栈中 JNI(Native 方法)的引用对象
- 活跃线程(已启动且未停止的 Java 线程)
根集中的对象称之为GC Roots。
可达性分析法也被称之为根搜索法,可达性是指,如果一个对象会被至少一个在程序中的变量通过直接或间接的方式被其他可达的对象引用,则称该对象就是可达的。更准确的说,一个对象只有满足下述两个条件之一,就会被判断为可达的:
- 对象是属于根集中的对象
- 对象被一个可达的对象引用
可达性分析法的基本思路是:将一系列的根对象作为起始点,从这些节点开始向下搜索,搜索所走过的路径称为引用链,如果一个对象到根对象没有任何引用链相连,那么这个对象就不是可达的,也称之为不可达对象。
- 优点:可以解决循环引用的问题,不需要占用额外的空间
- 缺点:多线程场景下,其他线程可能会更新已经访问过的对象的引用
垃圾回收算法
标记-清除算法
标记-清除算法是最基础的收集算法,为了解决引用计数法的问题而提出。它使用了根集的概念,它分为“标记”和“清除”两个阶段:首先标记出所需回收的对象,在标记完成后统一回收掉所有被标记的对象,它的标记过程其实就是前面的可达性分析法中判定垃圾对象的标记过程。
- 优点:不需要进行对象的移动,并且仅对不存活的对象进行处理,在存活对象比较多的情况下极为高效。
- 缺点:标记和清除过程的效率都不高,这种方法需要使用一个空闲列表来记录所有的空闲区域以及大小,对空闲列表的管理会增加分配对象时的工作量;标记清除后会产生大量不连续的内存碎片,虽然空闲区域的大小是足够的,但却可能没有一个单一区域能够满足这次分配所需的大小,因此本次分配还是会失败,不得不触发另一次垃圾收集动作。
标记-整理算法
标记-整理算法标记的过程与“标记-清除”算法中的标记过程一样,但对标记后出的垃圾对象的处理情况有所不同,它不是直接对可回收对象进行清理,而是让所有的对象都向一端移动,然后直接清理掉端边界以外的内存。在基于“标记-整理”算法的收集器的实现中,一般增加句柄和句柄表。
- 优点:经过整理之后,新对象的分配只需要通过指针碰撞便能完成,比较简单;使用这种方法,空闲区域的位置是始终可知的,也不会再有碎片的问题了。
- 缺点:GC 暂停的时间会增长,因为你需要将所有的对象都拷贝到一个新的地方,还得更新它们的引用地址。
标记-复制算法
标记-复制算法的提出是为了克服句柄的开销和解决堆碎片的垃圾回收。它将内存按容量分为大小相等的两块,每次只使用其中的一块(对象面),当这一块的内存用完了,就将还存活着的对象复制到另外一块内存上面(空闲面),然后再把已使用过的内存空间一次清理掉。
- 优点:标记阶段和复制阶段可以同时进行;每次只对一块内存进行回收,运行高效;只需移动栈顶指针,按顺序分配内存即可,实现简单;内存回收时不用考虑内存碎片的出现。
- 缺点:需要一块能容纳下所有存活对象的额外的内存空间。因此,可一次性分配的最大内存缩小了一半。
分代收集理论
分代收集理论将堆内存划分为新生代、老年代和永久代。新生代又被进一步划分为 Eden 和 Survivor 区,其中 Survivor 由 FromSpace(Survivor0)和 ToSpace(Survivor1)组成。所有通过new创建的对象的内存都在堆中分配,其大小可以通过-Xmx和-Xms来控制。分代收集,是基于这样一个事实:不同的对象的生命周期是不一样的。因此,可以将不同生命周期的对象分代,不同的代采取不同的回收算法进行垃圾回收,以便提高回收效率。
在分代收集算法中,对象的存储具有以下特点:
- 对象优先在 Eden 区分配。
- 大对象直接进入老年代。
- 长期存活的对象将进入老年代,默认为 15 岁。
在收集新生代的对象的时候,会将Eden区和SurvivorFrom区中所有存活的对象都挪到SurvivorTo区中,然后SurvivorTo区将生存足够久了的对象转移至老年代;然后From区和To区交换。