类加载过程详解
概述
在java中数据类型分为基本数据类型和引用数据类型.基本数据类型由虚拟机预先定义,引用数据类型则需要进行类加载按照Java虚拟机规范,从Class文件加载到内存中的类,到类卸载出内存位置,整个生命周期包括如下七个阶段
加载Loading -> 链接Linking(验证Verification -> 准备Preparation -> 解析Resolution) ->初始化Initiallzation -> 使用Using -> 卸载unloading
其中验证 准备 解析 和一起称为 链接阶段 Linking
阶段一: Loading 加载阶段
加载的理解
- 将java接字节码文件加载到机器内存中,并在内存中构建出一个java类的原型(类模板对象).类模板对象就是java类在JVM内存中的一个快照,JVM将字节码文件中解析出常量池,类字段,类方法等信息存储到模板中,这样JVM在运行期便能通过类模板而获取java类的任意信息,能够堆java类成员变量进行编译,也能进行java方法的调用.
- 反射的机制基于这一基础.如果JVM没有将java类的声明信息存储起来,则JVM运行期无法进行反射
加载完成的操作
查询并加载类的二进制数据,生成class的实例
在加载类时,java虚拟机必须完成以下3件事
- 通过类的全限定名,获取类的二进制数据流
- 解析类的二进制数据流为方法区的内的数据结构(java类模型)
- 创建java.lang.Class类实例,表示该类型.作为方法区这个类的各种数据的访问入口
二进制流的获取方式
对于类的二进制数据流,虚拟机可以通过多种途径产生或获得.
- JVM可以通过文件系统读取一个class文件 (最常见)
- 读入jar zip 等归档数据包 提取类文件
- 事先存放在数据库中的类二进制数据
- 使用类似于Http之类的协议通过网络进行加载
- 在运行时生成一段Class的二进制信息等
在获取到类的二进制信息后,JVM就会处理这些数据,并最终转成一个java.lang.Class的实例
如果输入的数据不是ClassFile结构(魔数不是CAFE BABE),则抛出ClassFormatError
类模型与Class实例的位置
-
类模型的位置
- 加载的类在JVM中创建相应的类结构,类结构会存储在方法区(JDK8之前永久代,JDK8之后元空间)
-
class实例的位置
- 类将.class文件加载到元空间中,会在堆中创建一个java.lang.Class对象,用于封装类位于方法区内的数据结构,该Class对象是在加载类的过程中创建的,每个类都对应一个class类型对象
-
说明
- class类的构造方法是私有的,只有JVM能够创建
- java.lang.Class实例是访问类型元数据的接口,也是实现反射的关键数据,入口.通过Class类提供的接口,可能获得目标类所关联的.class文件中具体的数据结构: 方法 字段等信息
数组类的加载
创建数据类的情况特殊处理,因为 数组类本身并不是由类加载器负责创建,而是由JVM在运行时期根据需要而直接创建,但数组的元素类型仍然需要依靠类加载器去创建.
- 如果数组元素类型是引用类型,那么就遵循定义的加载过程递归加载和创建数组A的元素类型
- JVM使用指定的元素类型和数组单独创建新的数组类
如果数组的元素类型是引用类型,数组类的可访问性就由元素类型的可访问性决定.否则数组的可访问性将被定义为默认public
阶段二 Linking 链接阶段
part 1 Verifycation 验证
-
类加载到系统后,就开始链接操作,验证链接操作是第一步
-
目的是保证加载的字节码是合法,合法并符合规范的
-
验证步骤复杂,大体上JVM需要进行如下检查
-
验证阶段覆盖了类数据信息的格式验证 语义检查 字节码验证 符号引用验证
- 其中格式验证会和加载阶段一起执行.验证通过之后,类加载器才会成功将类的二进制数据信息加载到方法区
- 格式验证之外的验证操作将会在方法区进行
-
链接阶段的验证虽然拖慢了加载速度,但是避免了在字节码运行时还需要的各种检查
具体步骤
-
格式验证: 魔数0xCAFEBABE开头, 主版本和副版本是否是当前JVM虚拟机支持范围内,数据中的每一项是否拥有正确的长度
-
java虚拟机会进行字节码的语义检查,但凡在语义上不符合规范的虚拟机也会给予验证通过
- 是否所有类都有父类的存在(java中除了Object外,其他类都应该有父类)
- 是否一些被定义为final的方法或者类被重写或者继承了
- 非抽象类是否实现了所有抽象方法或者接口方法
- 是否存在不兼容的方法(比如方法的签名除了返回值不同,其他都一样,这种方法会让虚拟机无法调用,abstract情况下的方法就不能是final的)
-
java虚拟机还会进行字节码验证, 字节码验证也是验证过程中最为复杂的一个阶段.对字节码流进行分析,判断字节码是否可以被正确执行
- 在字节码的执行过程中,是否会跳转到一条不存在的指令
- 函数的调用是否传递了正确类型参数
- 变量的赋值是不是给了正确的数据类型等
栈映射帧(StackMapTable)就是在这个阶段,用于检测在特定的字节码处,其局部变量表和操作数栈是否有着正确的数据类型.但无法实现100%的准确判断一段字节码是否可以被安全执行.因此,该过程只是尽可能的检查出可以预知的明显问题.如果在这个阶段无法通过检查,虚拟机不会正确装载这个类.但是如果通过了这个阶段也不能说这个类是完全没问题的
经过前面3次检查,已经排除了文件格式错误,语义错误以及字节码的不正确性,但是依然不能保证类是没问题的
-
校验器还将进行符号引用的验证.class文件在其常量池会通过字节码记录自己将要使用的其他类或者方法.因此在验证阶段,虚拟机就会检查这些类或者方法确实是存在的,并且当前类由访问这些数据的权限,如果一个需要使用类无法在系统中找到则会抛出NoClassDefFoundError,如果一个方法无法找到则会抛出NoSuchMethodError
part 2 Preparation 准备
-
准备阶段是为类的静态变量分配内存,并将其初始化为默认值
-
当一个类验证通过时,虚拟机进入准备阶段.在这个阶段,虚拟机就会为这个类分配相应的内存空间,并设置默认初始值
-
java虚拟机为各类型变量默认的初始值如下
类型 默认值 byte 0 short 0 int 0 long 0L float 0.0f double 0.0d char \u0000 boolean false reference null -
java并不支持boolean类型,对于boolean,内部实现是int,由int的默认值是0,故对应的,Boolean是默认值就是false
-
注意:
- 这里不包含基本数据类型的字段用static final修饰的情况,因为final在编译的时候就会分配了,准备阶段会显示赋值
- 这里不会为实例变量分配初始化,类变量会分配到方法区中,而实例变量会随着对象一起分配到java堆中
- 在这个阶段不会像初始化阶段中那样会有初始化或者代码执行
-
/** perparation 阶段 基本数据类型: static但非final 修饰的变量,会在perparation阶段进行默认初始化赋值 使用static final 修饰的基本数据类型和以字面量赋值的字符串会直接在准备阶段进行显示赋值,Field属性中会有ConstantValue属性 使用static final 修饰但显示赋值调用了类方法或者静态方法,都不会再preparation阶段显示赋值而是在initialization阶段,会在clinit方法显示赋值 */ public class LinkingTest { private static long id; private static final int num = 1; public static final String constStr = "CONST"; public static final String constStr1 = new String("CONST"); }
part3 Resolution解析
- 解析阶段将类,接口,字段和方法的符号引用转为直接引用
- 符号引用就是一些字面量的引用,和虚拟机的内部数据结构和内存分布无关.如class文件中,常量池存在大量的符号引用.但是在程序实际运行时,只有符号引用时不够的,比如当println()方法被调用时,系统需要明确知道方法在内存的位置
- 例如invokevirtual #24 <java/io/PrintStream.println>
- 以方法为例,java虚拟机为每个类都准备一张方法表,将其所有方法都列在表中,当需要调用一个类的方法的时候,只要知道这个方法在方法表中的偏移量就可以直接调用该方法.通过解析操作,符号引用就可以转变为目标方法在类方法表中的位置,从而使得方法被成功调用
- 小结 所谓解析就是将符号引用转为直接引用,也就是得到类,字段,方法在内存中的指针或者偏移量.因此如果直接引用存在,那么可以肯定系统中存在该类,方法或字段.但只存符号引用,不能确定系统中一定存在该结构
- 不过java虚拟机规范并没有明确要求解析阶段一定要按照顺序执行.在HotSpot VM中,加载,验证,准备和初始化会按照顺序有条不紊执行,但链接阶段中的解析操作往往会伴随着JVM在执行完初始化之后再执行
- 字符串复习 常量池的CONSTANT_String的解析,在java代码中直接使用字符串常量时,就会在类中出现CONSTANT_String,他表示字符串常量,并且会引用一个CONSTANT_UTF8的常量项.在java虚拟机内部运行中的常量池,会维护一张字符串表(intern),它会保存所有出现过的字符串常量而没有重复项.只要以CONSTANT_String形式出现的字符串也会在这张表中.使用String#inter()方法可以得到一个字符串在字符串常量池中的引用,因为该表中没有重复项,所有任何字面量相同的字符串String.intern()方法返回总是相等的
阶段三: Initialzation 初始化阶段
- 初始化阶段为类静态变量赋予正确的初始值
- 类的初始化是类装载的最后一个阶段.如果前面的步骤都没有问题,那么表示类可以顺利装载到系统中.此时,类才会开始执行java字节码.
- 初始化阶段最重要的工作是执行类的初始化方法 clinit方法
- 该方法仅能由java编译器生成并由JVM调用,程序开发者无法自定义一个同名的方法,更无法直接在java程序中调用该方法,虽然该方法也是由字节码指令组成
- clinit方法是类静态成员赋值语句以及static语句块合并产生的
- 在加载一个类之前,虚拟机总是会尝试加载该类的父类,因此父类的总是在子类之前被调用,也就是说,父类的static代码块优先级高于子类
- java编译器并不会为所有类都产生clinit方法
- 一个类并没有声明任何类变量 也没有静态代码块不会生成clinit方法
- 一个类中声明类变量,但是没有明确使用类变量的初始化语句以及静态代码块来执行初始化操作
- 一个类包含 static final修饰的基本数据类型的字段以及字面量的字符串,这些类字段会在preparation阶段直接显示赋值,field会多一个ConstantValue属性
static final 搭配问题
/**
*
* 哪些场景下,Java 编译器就不会生成<clinit>()方法
*/
public class InitializationTest1 {
//场景1: 非静态static 成员 不会生成clinit
public int num = 1;
//场景2:静态但没有显示赋值 不会生成clinit
public static int num1;
//场景3:使用static final的基本数据类型或者字面量赋值的String 直接在准备阶段赋值不会生成clinit
public static final int num2 = 1;
}
/**
* 使用static + final 到底在哪个阶段显示赋值的问题
* 1. 使用static + final 修饰的类成员是基本数据类型 或者 以字面量赋值的String类型(String str = "aaa") 是在准备阶段进行复制不会在clinit中赋值
* 2. 除上述情况外都是在clinit方法中赋值 注意包括调用方法生成的基本数据类型如(Integer.valueOf Random.nextInt等等) 但凡在编译时期无法确定都在clinit中赋值
*
* 最终结论:使用 static + final 修饰,且显示赋值中不涉及到方法或构造器调用的基本数据类型或String类型的显式赋值,是在链接阶段的准备环节进行
*/
public class InitializationTest2 {
public static int a = 1; // 在初始化clinit赋值
public static final int INT_CONSTANT = 10; // 在preparation阶段赋值
public static final Integer INTEGER_CONSTANT1 = Integer.valueOf(100); //在初始化clinit赋值
public static Integer INTEGER_CONSTANT2 = Integer.valueOf(1000); //在初始化clinit赋值
public static final String s0 = "helloworld0"; // 在preparation阶段赋值
public static final String s1 = new String("helloworld1"); //在初始化clinit赋值
}
clinit线程安全问题
对于clinit方法的调用,也就是类的初始化,虚拟机在内部自己确保是多线程环境的安全性,虚拟机会保证一个类的clinit方法在多线程环境中被正确加锁使用,如果多个线程同时去初始化一个类,那么只会有一个线程去执行这个类的clinit方法,其他线程都需要阻塞等待,只要活动线程执行clinit方法完毕
因为clinit方法是线程安全的,因此如果在一个类的clinit方法中执行耗时操作,可能会造成多线程阻塞,引发死锁问题,并且这种死锁很难发现,看不到他们的锁信息
如果之前线程成功加载了类,则等在队列中的线程就没有机会在执行clinit方法.那么当需要使用这个类时,虚拟机会直接返回他已经准备好的信息
类的初始化情况 主动使用 vs 被动使用
java程序对类的使用分为 主动使用 和 被动使用
主动使用
class只有在需要首次使用的时候才会被装载,java虚拟机不会无条件加载class类型.java虚拟机规定,一个类或者接口在初次使用前,必须要进行初始化.这里指的使用,是指主动使用,主动使用只有一下几种情况(如果出现下列情况,则会对类进行初始化操作.而初始化操作之前的加载,验证,准备已经完成)
- 当创建一个类的实例时,比如使用new关键字,或者通过反射,克隆,反序列化
- 当调用类的静态方法,即当使用字节码invokestatic 指令
- 当使用类 接口的静态字段 (final修饰的特殊考虑),比如getstatic或者putstatic指令(访问类变量和赋值类变量)
- 当使用java.lang.reflect包中的方法反射类的方法 如 Class.forname(“java.lang.String”)
- 当初始化子类时,如果发现其父类还没有进行初始化,则需要先触发父类的初始化
- 如果一个接口定义了default方法,那么直接实现或者间接实现该接口的类初始化,该接口要在之前被初始化
- 当虚拟机启动时,用户需要指定一个要执行的主类(包含main方法的类),虚拟机会先初始化这个主类
- 当初始调用MethodHandler实例是,初始化该MethodHandler指向方法所在的类(涉及解析 REF_getStatic REF_putStatic REF_invokeStatic 方法句柄对应的类)
对于5的补充说明
当java虚拟机初始化一个类时,要求他的所有服了都已经被初始化,但是这条规则不适用于接口
- 在初始化一个类时,并不会先初始化他实现的接口
- 在初始化一个接口时,并不会先初始化他的父接口
- 因此一个父接口并不会因为他的子接口或者实现类的初始化而初始化,只有当程序首次使用特定接口的静态字段时,才会导致该接口的初始化
对于7的补充说明
JVM启动的时候通过引导类加载器加载一个初始类.这个类调用public static void main(String[] args)方法之前被连接和初始化.这个方法的执行将依次导致所需类的加载,连接和初始化
被动使用
除了以上情况属于类的主动使用,其他情况均为被动使用. 被动使用不会引起类的初始化
并不是在代码中出现的类,就一定会被加载或者初始化.如果不符合主动使用的条件,类就不会初始化
- 当访问一个静态字段,只有真正声明这个字段的类才会被初始化
- 当通过子类访问父类的静态变量,不会导致子类的初始化
- 通过数组定义类引用,不会触发次类的初始化
- 引用变量不会触发此类或者接口的初始化.因为常量在连接阶段已经被显示赋值了
- 调用ClassLoader类的loadClass方法加载一个类,并不是堆类的主动使用,不会导致类的初始化
-XX:+TraceClassLoading可以追踪类的加载信息并打印出来
阶段四 Using(使用)
任何一个类型在使用之前都必须经历过完成的加载,连接,和初始化三个类加载阶段,一旦一个类成功经历过三个阶段之后,则可以进行使用,在程序中在访问他的静态类成员信息(如静态字段或者静态方法)或者使用new关键字为其创建对象实例
阶段五 Unloading(卸载)
-
类 类加载器 类实例之间的引用关系
- 在类加载器的内部实现中,用一个java集合来存放所加载类的引用.另一方面,一个class对象总是会引用他的类加载器,调用class对象的getClassLoader方法,就能获取到他的类加载器.一个类的Class实例与其类加载器之间为双向关联关系
- 一个类实例总是引用代表这个类的class对象.在Object中定义了getClass方法,该方法返回代表对象所属类的class对象的引用.此外,所有java类都有一个静态属性Class,他引用代表这个类的class对象
-
类的生命周期
-
当Simple类被加载,链接,初始化后,他的生命周期开始,当代表Simple的类对象不再被引用,即不可达状态时,Class对象就会结束生命周期,Simple类在方法区内的数据也会被卸载,Simple生命周期结束
-
一个类何时结束生命周期,取决于代表它的class对象何时结束生命周期
-
Loader1变量和obj变量间接引用代表Sample类的Class对象,objClass则是直接引用他在方法区的地址
-
如果程序运行过程中,将上图左侧三个引用都置为null,此时Sample对象生命周期结束,MyClassLoader对象生命周期结束,代表Sample类的Class对象也结束生命周期,Sample类在方法区的二进制模板数据将被卸载
-
当此时再次有需要时,会检查Sample类的Class对象是否存在,如果存在会直接使用,不会再重新加载,如果不存在Sample类会重新加载,在java虚拟机的堆区会生成一个新的代表Sample类的Class类实例
-
-
类的卸载
- 启动类加载器加载的类型在整个运行期不可能被卸载 (JVM JSL规范)
- 被系统加载器和扩展类加载器的类型在运行期不太可能被卸载,因为系统类加载器实例或者扩展类加载器实例基本上在整个运行期间总能被直接或间接访问到,能达到不可达状态几率很小
- 被开发者自定义的类加载器的类型只有在很简单的上下文环境中才能被卸载,而且一般还有借助强制调用虚拟机的垃圾收集功能才可以做到.稍微复杂点的应用场景(比如:很多时候用户在开发自定义类的加载器实例的时候采用了缓存策略以提高系统性能)
综合以上三点,一个已经加载的类型被卸载的几率很小至少被卸载的时间是不确定的.开发者在开发是,不应该对虚拟机类型卸载做任何假设的前提下,来实现系统中特定的功能
方法区的垃圾回收
- 方法区垃圾收集主要回收两个部分: 常量池中废弃的常量和不在使用的类型
- HotSpot虚拟机堆常量池的回收策略是很明确的,只要常量池中的常量没有被任何地方引用,就可以被回收
- 判定一个常量是否被废弃相对简单,而是要判断一个类型是否属于不在使用的类的条件非常苛刻.需要同时满足下面三个条件
- 该类的所有实例都已经被回收. java堆中不在存在该类及其任何派生子类的实例
- 加载该类的类加载器已经被回收. 这个条件除非是精心设计的可替换类加载器场景 如 OSGI JSP的中加载等,否则通常很难达到
- 对应的java.lang.Class对象没有在任何地方被引用,无法在任何地方通过反射访问该类的方法
- java虚拟机被允许对于满足上述三种条件的无用类进行回收,这里说的仅仅是被允许,而不是和对象一样,没有引用必然被回收
面试题总结
Java 类加载过程
- class文件 通过文件系统或者jar zip或者网络等形式加载到JVM中 目的在于生成一个类模板在方法区中
- Linking 阶段
- verifycation 验证阶段 格式检查(CAFE BABE Version) 语义检查(abstract 是否实现 final是否被继承…) 字节码验证(指令是否跳转到在正确位置) 符号引用检查(符号引用到直接引用是否存在)
- preparation准备阶段 类成员分配内存默认赋值 静态final修饰的确定的常量在此阶段赋值
- resolve 解析阶段 将类,接口,方法,字段的符号引用转为直接引用
- initilazation 显示类的静态变量变量 执行clinit方法 静态代码块执行
- using 使用阶段
- unloading 类的卸载 需要满足3个条件 1.类及其派生实例全部被回收 2.类对应的类加载器被回收 3.类对应堆中的Class实例被回收 类才可能被卸载
主动使用和被动使用
主动使用
- new Class.forName(“xxx”) 反序列化 clone等
- 调用类的静态方法 字节码使用了invokestatic 指令
- 使用类 接口的静态字段(final 特殊处理) 使用了getstatic 或者 putstatic 指令
- 初始化子类先初始化其父类 (如果父类是接口,父类不会初始化,子类时接口也不会初始化他继承的接口)
- 如果一个接口定义了default方法,直接实现或者间接实现该接口的类(不需要调用default方法),此时这个接口优先于这个类初始化
- 虚拟机启动时,用户需要指定一个执行的主类main
- 初始调用MethodHandle实例
package classfile;
import org.junit.Test;
import java.io.*;
import java.util.Random;
/**
* @author : Jim Wu
* @version 1.0
* @function :
* @since : 2020/11/11 10:13
*/
public class PassiveUseTest {
/**
* 1. new Class.forName 反序列化 clone
*/
@Test
public void test1() {
// new
// new Test1();
// Class.forName
// try {
// Class.forName("classfile.Test1");
// } catch (ClassNotFoundException e) {
// e.printStackTrace();
// }
// 反序列化
// Test1 test1 = new Test1();
// serialize(test1, "./test1.data");
deSerialize("./test1.data");
}
/**
* 2. 调用类的静态方法 会触发类的初始化 调用clinit
*/
@Test
public void test2() {
Test1.method1();
}
/**
* 3.类或者接口的静态变量 getstatic putstatic
*/
@Test
public void test3() {
Test1.NUM = 1;
}
/**
* 4. 初始化子类 先初始化其 父类如果是接口不会调至父接口的初始化
*/
@Test
public void test4() {
Test1 test1 = new Test1();
System.out.println(test1.NUM2);
}
/**
* 5. 如果接口定义了default 方法 任何一个直接或者间接实现的子类 该接口的初始化在子类之前
*/
@Test
public void test5() {
new Test1();
}
public void serialize(Object obj, String path) {
ObjectOutputStream ops = null;
try {
ops = new ObjectOutputStream(new FileOutputStream(path));
ops.writeObject(obj);
} catch (IOException e) {
e.printStackTrace();
} finally {
try {
ops.close();
} catch (IOException e) {
e.printStackTrace();
}
}
}
public Object deSerialize(String path) {
ObjectInputStream ois = null;
try {
ois = new ObjectInputStream(new FileInputStream(path));
return ois.readObject();
} catch (Exception e) {
e.printStackTrace();
} finally {
try {
ois.close();
} catch (IOException e) {
e.printStackTrace();
}
}
return null;
}
}
class Test1 extends SuperClass implements Serializable, Interface1, Interface2 {
static int NUM;
static {
System.out.println(" Test1 initialization");
}
static void method1() {
}
}
class SuperClass {
static {
System.out.println("SuperClass initialization");
}
}
interface Interface1 {
Thread t = new Thread() {
{
System.out.println("Interface1 initialization");
}
};
public final static int NUM2 = new Random().nextInt(10);
}
interface Interface2 {
public static final Thread t = new Thread() {
{
System.out.println("Interface2 initialization");
}
};
default void method() {
}
}
被动使用
- 访问静态字段,只有真正声明这个字段的类才会初始化 如子类访问父类的静态字段不会导致子类初始化
- 通过数组定义的引用,不会触发此类初始化
- 使用final static 修饰的不可变常量(基本数据类型和字面量赋值的String)在linking中的preparation阶段完成显示赋值的,不会初始化
- 调用ClassLoader#loadClass加载一个类,不会导致类的初始化
public class UnPassiveTest {
/**
* 1. 访问静态字段只会初始化真正定义这个字段的类 子类访问父类定义的静态变量不会触发子类初始化
*/
@Test
public void test1() {
System.out.println(Child.NUM);
}
/**
* 2.通过数组定义的引用 不会触发该类的初始化
*/
@Test
public void test2() {
Parent[] parents = new Parent[10];
}
/**
* 3. 使用static final 修饰的字段且不在clinit中赋值不会触发初始化 ConstantValue
*/
@Test
public void test3() {
System.out.println(Parent.NUM2);
}
/**
* 4. 使用ClassLoader#loadClass 不会触发初始化
*/
@Test
public void test4() {
try {
ClassLoader.getSystemClassLoader().loadClass("classfile.Parent");
} catch (ClassNotFoundException e) {
e.printStackTrace();
}
}
}
class Parent {
public static int NUM = 1;
public static final int NUM2 = 0;
static {
System.out.println("Parent initialization");
}
}
class Child extends Parent {
static {
System.out.println("Child initialization");
}
}