四种垃圾收集算法和垃圾收集器记忆技巧

置顶泡^泡

已于 2024-05-01 11:27:12 修改

阅读量691

点赞数

分类专栏： Jvm 文章标签： jvm java

于 2021-04-25 00:45:42 首次发布

本文链接：https://blog.csdn.net/xiaowanzi_zj/article/details/116111882

版权

Jvm 专栏收录该内容

17 篇文章 2 订阅

订阅专栏

垃圾收集算法

标记-清除算法(Mark-Sweep)

这是最基础的垃圾回收算法,之所以说它是最基础的是因为它最容易实现,思想也是最简单的。标记-清除算法分为两个阶段:标记阶段和清除阶段。标记阶段的任务是标记出所有需要被回收的对象,清除阶段就是回收被标记的对象所占用的空间。具体过程如下图所示：

缺点:
效率问题:标记和清除过程的效率都不高;
空间问题:标记清除之后会产生大量不连续的内存碎片,空间碎片太多可能会导致大对象无法分配到足够的连续内存,从而不得不提前触发GC,甚至Stop The World

优点：实现简单，不需要对象进行移动。

复制算法(Copying)

为了解决Mark-Sweep算法的缺陷，Copying算法就被提了出来。它将可用内存按容量划分为大小相等的两块，每次只使用其中的一块。当这一块的内存用完了，就将还存活着的对象复制到另外一块上面，然后再把已使用的内存空间一次清理掉，这样一来就不容易出现内存碎片的问题。具体过程如下图所示：

缺点:
效率问题:在对象存活率较高时,复制操作次数多,效率降低
空间问题:內存缩小了一半;需要額外空间做分配担保(老年代)

优点:没有内存碎片

标记-整理算法(Mark-compact)

标记-整理算法采用标记-清除算法一样的方式进行对象的标记，但在清除时不同，在回收不存活的对象占用的空间后，会将所有的存活对象往左端空闲空间移动，并更新对应的指针。标记-整理算法是在标记-清除算法的基础上，又进行了对象的移动，因此成本更高，但是却解决了内存碎片的问题。具体流程见下图：

分代收集算法

GC分代的基本假设:绝大部分对象的生命周期都非常短暂,存活时间短。
“分代收集”算法,把Java堆分为新生代和老年代,这样就可以根据各个年代的特点采用最适当的收集算法。在新生代中,每次垃圾收集时都发现有大批对象死去,只有少量存活,那就选用复制算法,只需要付出少量存活对象的复制成本就可以完成收集。而老年代中因为对象存活率高、没有额外空间对它进行分配担保,就必须使用“标记-清理”或“标记-整理”算法来进行回收。

分代收集算法是目前大部分JVM的垃圾收集器采用的算法。它的核心思想是根据对象存活的生命周期将内存划分为若干个不同的区域。一般情况下将堆区划分为老年代（Tenured Generation)和新生代(Young Generation),在堆区之外还有一个代就是永久代（Permanet Generation）。老年代的特点是每次垃圾收集时只有少量对象需要被回收，而新生代的特点是每次垃圾回收时都有大量的对象需要被回收,那么就可以根据不同代的特点采取最适合的收集算法。

目前大部分垃圾收集器对于新生代都采取Copying算法,因为新生代中每次垃圾回收都要回收大部分对象,也就是说需要复制的操作次数较少,但是实际中并不是按照1：1的比例来划分新生代的空间的,一般来说是将新生代划分为一块较大的Eden空间和两块较小的Survivor空间(一般为8:1:1),每次使用Eden空间和其中的一块Survivor空间，当进行回收时,将Eden和Survivor中还存活的对象复制到另一块Survivor空间中,然后清理掉Eden和刚才使用过的Survivor空间。

而由于老年代的特点是每次回收都只回收少量对象,一般使用的是Mark-Compact算法。

-年轻代(Young Generation)的回收算法 (回收主要以Copying为主)

a) 所有新生成的对象首先都是放在年轻代的。年轻代的目标就是尽可能快速的收集掉那些生命周期短的对象。

b) 新生代内存按照8:1:1的比例分为一个eden区和两个survivor(survivor0,survivor1)区。一个Eden区,两个Survivor区(一般而言)。大部分对象在Eden区中生成。回收时先将eden区存活对象复制到一个survivor0区,然后清空eden区,当这个survivor0区也存放满了时,则将eden区和survivor0区存活对象复制到另一个survivor1区,然后清空eden和这个survivor0区，此时survivor0区是空的，然后将survivor0区和survivor1区交换,即保持survivor1区为空(为啥保持survivor1为空,答案:为了让eden和survivor0 交换存活对象)，如此往复。当Eden没有足够空间的时候就会触发jvm发起一次Minor GC

c) 当survivor1区不足以存放 eden和survivor0的存活对象时，就将存活对象直接存放到老年代。若是老年代也满了就会触发一次Full GC(Major GC)，也就是新生代、老年代都进行回收。

d) 新生代发生的GC也叫做Minor GC,MinorGC发生频率比较高(不一定等Eden区满了才触发)

-老年代(Old Generation)的回收算法(回收主要以Mark-Compact为主)

a) 在年轻代中经历了N次垃圾回收后仍然存活的对象,就会被放到老年代中。因此,可以认为老年代中存放的都是一些生命周期较长的对象。

b) 内存比新生代也大很多(大概比例是1:2),当老年代内存满时触发Major GC即Full GC,Full GC发生频率比较低,老年代对象存活时间比较长,存活率标记高

-永久代(java8以前)(Permanent Generation)(也就是方法区)的回收算法

用于存放静态文件,如Java类、方法等。永久代对垃圾回收没有显著影响,但是有些应用可能动态生成或者调用一些class,例如Hibernate等,在这种时候需要设置一个比较大的永久代空间来存放这些运行过程中新增的类。永久代也称方法区。

再写一遍:

方法区存储内容是否需要回收的判断可就不一样咯。方法区主要回收的内容有:废弃常量和无用的类。对于废弃常量也可通过引用的可达性来判断,但是对于无用的类则需要同时满足下面3个条件：

该类所有的实例都已经被回收，也就是Java堆中不存在该类的任何实例；
加载该类的ClassLoader已经被回收；
该类对应的java.lang.Class对象没有在任何地方被引用,无法在任何地方通过反射访问该类的方法。

垃圾收集器

Serial

Serials是一款用于新生代的单线程的垃圾收集器,采用复制算法进行垃圾收集。Serial进行垃圾收集器时,只有一条线程
执行垃圾收集工作,它在收集的同时,所有的用户线程必须暂停(Stop The World)。
适用场景:Client模式,单核服务器

记忆技巧

Serial收集器->新生代->复制回收算法->单线程->stop the world

ParNew

ParNew是一款用于新生代的多线程的垃圾收集器,采用复制算法进行垃圾收集工作,收集完之后,用户线程继续开始执行。它在收集的同时,用户线程也会发生(Stop The World)。
适用场景:多核服务器,与CMS收集器搭配使用

默认开启的收集线程数与CPU的数量相同,在CPU非常多的情况下可使用-XX:ParallerGCThreads参数设置

记忆技巧

parNew收集器->新生代->复制回收算法->多线程->stop the world

Parallel Scavenge

Parallel Scavenge 也是一款用于新生代的多线程收集器,与 ParNew 的不同之处是ParNew 的目标是尽可能缩短垃圾收集时用户线程的停顿时间,Parallel Scavenge 的目标是达到一个可控制的吞吐量。吞吐量就是 CPU 执行用户线程的的时间与 CPU 执行总时间的比值【吞吐量 = 运行用户代码时间/(运行用户代码时间+垃圾收集时间)】
适用场景:注重吞吐量,高效利用CPU,需要高效运算且不需要太多交互。

记忆技巧

Parallel Scavenge收集器->新生代->复制回收算法->多线程->stop the world->关注点是吞吐量

Serial Old

Serial Old收集器是 Serial 的老年代版本,同样是一个单线程收集器,采用标记-整理算法。
适用场景:Client模式(桌面应用);单核服务器;与 Parallel Scavenge 收集器搭配;作为CMS收集器的后备预案。

记忆技巧

Serial Old收集器->老年代->标记整理算法->单线程->stop the world

Parallel Old

Parallel Old收集器是Parallel Scavenge的老年代版本,是一个多线程收集器,采用标记-整理算法。可以与 Parallel Scavenge收集器搭配,可以充分利用多核CPU的计算能力。

记忆技巧

Parallel Old收集器->老年代->标记整理算法->多线程->stop the world->关注点是吞吐量

CMS

CMS收集器是一种以获取最短回收停顿时间为目标的收集器,标记-清除算法
4个步骤：
初始标记:只标记和GC Root直接关联的对象,速度很快,需要暂停所有线程。
并发标记:和用户线程一起工作,执行GC Roots跟踪标记过程,不需要暂停工作线程。
重新标记:在并发标记过程中用户线程继续运行,导致在垃圾回收过程中部分对象的状态发生变化,为了确保这部分对象的状态正确性,需要对其重新标记并暂停工作线程。
并发清除:和用户线程一起工作,执行清除GC Roots不可达对象的任务,不需要暂停工作线程。
整个过程耗时最长的并发标记和并发清除都是和用户线程一起工作,所以从总体上来说,CMS收集器垃圾收集可以看做是和用户线程并发执行的。
缺点:对CPU资源敏感、无法处理浮动垃圾、基于标记清除算法

优点:并发收集,低停顿
缺点：
1.对CPU资源敏感(因为是并发收集器,会占用一部分线程进行垃圾回收,会降低吞吐量)
2.CMS默认启动的线程是(CPU数量+3)/4,当 CPU 大于4个以上占用资源不超过25%的CPU资源,但是小于4个CPU时候CMS收集器对用户程序的影响就比较大。
3.CMS 无法回收浮动垃圾。CMS 在并发清理阶段还可以运行用户线程,这时候还会产生新的垃圾,而这部分垃圾 CMS 无法在本次回收掉,这部分就是浮动垃圾。因此CMS不能像其他的收集器等到老年代几乎全部满了再进行回收,需要预留一部分空间提供并发收集时候的用户线程使用。在JDK1.5中,这个百分比为68%,到1.6时,这个参数值提高到了92%,可以通过 -XX:CMSInitiatingOccupancyFraction 参数来设置这个属性。如果 CMS 在运行时候预留的内存无法满足程序需要,就会出现一次 “Concurrent Mode Failure”失败,这时候虚拟机临时启用 Serial Old 收集器重新来进行老年代的垃圾收集。
4.CMS是基于标记清除算法,在清理的过程中会有大量的空间碎片。空间碎片过多后给大对象分配空间会有很多麻烦。CMS 提供了一个参数 -XX:+UseCMSCompactAtFullCollection用来在 Full GC完成后附加一个碎片整理过程,碎片整理无法并发会导致停顿时间变长。当然还提供了一个参数 -XX:CMSFullGCsBeforeCompaction,这个参数设置在执行多少次不压缩的FullGC后,跟着来一次带压缩的。

CMS 出现FullGC的原因：

1.年轻代晋升到老年代没有足够的连续空间,很有可能是内存碎片导致的

2.在并发过程中JVM觉得在并发过程结束之前堆就会满,需要提前触发FullGC

G1

是一款面向服务器的垃圾收集器,主要针对配备多颗处理器及大容量内存的机器,以极高概率满足GC停顿时间要求的同时,还具备高吞吐量性能特征.
并行与并发:充分利用多CPU、多核环境下的硬件优势
分代收集:不需要其他收集器配合就能独立管理整个GC堆
空间整合:由于G1使用了独立区域(Region)概念,整体来看采用的是标记—整理”算法实现的收集器,局部(两个Region)上基于“复制”算法不会产生内存空间碎片
可预测的停顿:能让使用者明确指定在一个长度为M毫秒的时间片段内,消耗在垃圾收集上的时间不得超过N毫秒
G1收集器的运作大致可划分为以下几个步骤:
初始标记:标记一下GC Roots能直接关联到的对象,需要停顿线程,但耗时很短
并发标记:是从GC Root开始对堆中对象进行可达性分析,找出存活的对象,这阶段耗时较长,但可与用户程序并发执行
最终标记:修正在并发标记期间因用户程序继续运作而导致标记产生变动的那一部分标记记录
筛选回收:对各个Region的回收价值和成本进行排序,根据用户所期望的GC停顿时间来制定回收计划
G1收集器在后台维护了一个优先列表,每次根据用户允许的收集时间,优先选择回收价值最大的Region

RSet(Remember Set:记忆集合)

每一个Region都会划出一部分内存用来储存记录其他Region对当前持有Rset Region中Card的引用,这个记录就叫做Remember Set。我们可以看看以下的分区模型图:

G1垃圾回收器,有对STW时间的控制,通过参数 -XX:MaxGCPauseMillis 来设置,而对于整个堆进行一次回收所需要的的实际STW时间可能远远超过这个值,所以G1可以不用扫描整个堆,只要通过扫描RSet来分析垃圾比例最高的Region区,放入CSet(Collection Set:回收集合)中,进行回收。

Rset的储存方状态，会根据对当前区域中引用数量的增加依次递增，分别为：稀疏（hash）->细粒度->粗粒度。

稀疏状态：一个其他Region引用当前Region 中Card 的集合被放在一个数组里面，Key：redion地址 Value：card 地址数组

细粒度：一个Region地址链表，共同维护当前 Region 中所有card 的一个BitMap集合，该card 被引用了就设置对应bit 为1，并且还维护一个对应Region对当前Region中card 索引数量

粗粒度：所有region 形成一个 bitMap，如果有region 对当前 Region 有指针指向，就设置其对应的bit 为1

加入一条索引的源码的工作流程图如下：
在这里插入图片描述

我们发现如果有Rset的数据结构退化成了粗粒度的时候,要对Region进行回收的时候,就必须对Region进行全扫描才能正确回收,这样就大大增大了G1垃圾回收器的工作量,降低了效率。

其次为了追求效率一般Young代Region不会有RSet,因为维护Rset需要消耗不少性能,而年轻代快速回收的特性,带来了大量的浪费。

CSet(Collection Set回收集合)

收集集合(CSet)代表每次GC暂停时回收的一系列目标分区。在任意一次收集暂停中，CSet所有分区都会被释放，内部存活的对象都会被转移到分配的空闲分区中。因此无论是年轻代收集，还是混合收集，工作的机制都是一致的。年轻代收集CSet只容纳年轻代分区，而混合收集会通过启发式算法，在老年代候选回收分区中，筛选出回收收益最高的分区添加到CSet中。

CSet根据两种不同的回收类型分为两种不同CSet。
1.CSet of Young Collection
2.CSet of Mix Collection
CSet of Young Collection 只专注回收 Young Region 跟 Survivor Region ，而CSet of Mix Collection 模式下的CSet 则会通过RSet计算Region中对象的活跃度，活跃度阈值-XX:G1MixedGCLiveThresholdPercent(默认85%)，只有活跃度高于这个阈值的才会准入CSet，混合模式下CSet还可以通过XX:G1OldCSetRegionThresholdPercent(默认10%)设置，CSet跟整个堆的比例的数量上限

1.G1收集器会把Java推划分为大小相同独立区域(Region),每个Region1M-32M之间,必须是2的幂,如果java对象超过region的50%,就会放到H区。
2.G1收集器逻辑上是分代(Eden/Survivor/Old/Empty/Humongous),物理上是分区。
3.G1收集器默认将整堆划分为2048个分区。