上一篇文章讲到了垃圾回收的三种模式,其中最重要的是如何标记需要回收的垃圾对象,像Serial、Parallel这类的回收器,无论是单线程标记和多线程标记,其本质采用的是暂停用户线程进行全面标记的算法,好处就是简单,标记的很干净,缺点就是标记时间相对很长,导致STW的时间很长。
那么后来就有了并发标记,适用于CMS和G1,可以在不暂停用户线程的情况下对其进行标记,那么实现这种并发标记的算法就是三色标记法,最大的特点就是可以异步执行,从而可以用极少的中断时间或者不中断来进行整个GC。
三色标记原理
根据可达性分析,需要从GC Root进行遍历,可以达到的对象就是存活对象。
最终可达对象为A->B ,F->E。那在整个寻找的过程中,就可以通过不同颜色来区分对象是否被访问过。这就可以通过三种颜色来表示已访问过,访问中,未访问(对象已经不被引用,GC Root无法到达访问)。
- 黑色:本对象已经被GC访问过,且本对象的子引用对象也已经被访问过了。
- 灰色:本对象已访问过,但是本对象的子引用对象还没有被访问过,全部访问完会变成黑色,属于中间态
- 白色:尚未被GC访问过的对象,如果全部标记已完成依旧为白色的,称为不可达对象,既垃圾对象。
当然标记的颜色也可以是其他颜色,只要能区分三种不同的状态即可。
标记过程
1、发标记未开始前,所有对象均为白色集合。
2、并发标记开始后,编将所有GCRoots直接引用的对象标记为灰色集合。
3、判断若灰色集合中的对象不存在子引用,则将其放入黑色集合,若存在子引用对象,则将其所有的子引用对象放入灰色集合,当前对象放入黑色集合
4、按照步骤三,以此类推,直至灰色集合中的所有对象变成黑色后,本轮标记完成,且当前白色集合内的对象称为不可达对象,既垃圾对象。
问题:由于并发标记的过程中并没有停止工作线程,对象之间的引用就会变化,从新的存活对象变成垃圾对象,就会产生浮动垃圾和漏标。
浮动垃圾
从存活对象变成了垃圾对象,造成并没有被标记成白色,从而没有被及时清理
情况一:
1.在扫描A对象的时候,存在子引用对象B,所以A对象变黑色,B变灰色。
2.由于没有STW,业务线程正在工作,业务逻辑存在了变化,A和B之间不存在引用关系,按照我们的认知,B对象及之后的对象就无法达到GC Root了,也就是成了垃圾对象要被回收
3.但是,由于B已经被标记灰色,会继续往下走都会被标记成黑色,导致本应该成为垃圾对象的B及之后的子对象都没有及时回收,成为了浮动垃圾。
情况二:
并发标记的过程中,新产生的对象通常被标记成黑色。例如工作线程产生了新对象(标记成黑色),但在后面又变成了垃圾对象,这一部分也是浮动垃圾。
漏标
白色对象从灰色对象引用变成被黑色对象引用后,造成了白色对象就不会改变颜色。
黑色对象表示子引用对象已经被扫描过,所以如果黑色对象又重新引用了白色对象,就不会在扫描子引用对象,这个时候的白色子对象也就不会在改变颜色
可以看出漏标只有同时满足以下两个条件时才会发生:
条件一:灰色对象 断开了 白色对象的引用;即灰色对象 原来成员变量的引用 发生了变化。
条件二:黑色对象 重新引用了 该白色对象;即黑色对象 成员变量增加了 新的引用。
只要破坏其中一个条件,就不会在漏标。
解决方案
破坏条件一:G1采用SATB(Snapshot At The Beginning)算法
引用断开之前,先对现在的引用关系保存一个快照,即便后面断开引用,GC也能根据快照访问到白色对象,最后改变成黑色。
破坏条件二:CMS采用Incremental Update算法
既然黑色对象重新引用了白色对象,那黑色对象就在变成灰色重新在扫描其子引用对象。
通过两种解决方案,也可以看出让黑色对象变成灰色重新扫描,效率太低。所以G1 在处理并发标记的过程比CMS 效率要高,这个主要是解决漏标的算法决定的。