JVM学习小结2(执行引擎和对象)

在这里插入图片描述


博主的上一篇博文 JVM学习小结1中介绍了JVM的内存结构和类加载器,接下来介绍JVM执行引擎的内容。

在这里插入图片描述

执行引擎

在上一篇博文中,介绍了类的加载机制,将.class文件加载到了内存中,这节描述执行加载进来的字节码。

虚拟机是相对与物理机而言的。物理机的执行引擎是由底层硬件实现,而虚拟机的执行引擎由虚拟机自身实现。

运行时的虚拟机栈

上一篇博文中介绍了JVM的内存结构,其中有一个部分是虚拟机栈。虚拟机会为每个线程分配一个虚拟机栈,每个虚拟机栈中都有若干个栈帧。

栈帧是虚拟机进行方法调用和方法执行的数据结构,用于存储:局部变量表、操作数栈、动态链接、返回地址等信息,这行信息会在编译时被写入到Class文件的方法表的Code属性中。每一个方法从调用开始至执行完成的过程,都对应着一个栈帧在虚拟机栈里面从入栈到出栈的过程。

一个线程中的方法调用链可能会很长,很多方法都同时处于执行状态。对于执行引擎来说,在活动线程中,只有位于栈顶的栈帧才是有效的,称为当前栈帧,与这个栈帧相关联的方法称为当前方法。

执行引擎运行的所有字节码指令都只针对当前栈帧进行操作。

局部变量表

变量值存储空间,用于存放方法参数和方法内定义的局部变量。建立在线程的栈上,是线程的私有数据,因此不存在数据安全问题。

  • 在编译期间,在方法的Code属性的max_locals数据项中确定了该方法所需要分配的局部变量表的最大容量。

局部变量表的容量以变量槽(Variable Slot,下称Slot)为最小单位,虚拟机规范中并没有明确指明一个Slot应占用的内存空间大小,只是很有导向性地说明每个Slot都应该能存放一个boolean、byte、char、short、int、float、reference或returnAddress类型的数据。也就是说一个Slot应该能够存放一个32位以内的数据类型。为了尽可能节省栈帧空间,局部变量表中的Slot是可以重用的,方法体内定义的变量,其作用域不一定会覆盖整个方法体,如果当前字节码PC计数器的值已经超过某个变量的作用域,那这个变量对应的Slot就可以交给其他变量使用。

reference类型表示对一个实例对象的引用,虚拟机规范没有说明它的长度,也没有明确指出这种引用应该具有的结构。一般来说,虚拟机实现至少能应当通过这个引用做到两点:一是从此引用中直接或间接地查找到对象在Java堆中的数据存放的起始地址索引,二是引用中直接或间接地查找到对象所属数据类型在方法区中的类型信息。 对于64位的数据类型,虚拟机会以高位对齐的方式为其分配两个连续的Slot空间。

  • 在方法执行期间,虚拟机通过使用局部变量表完成参数值到参数变量列表的传递过程。

如果是实例方法,那局部变量表第0位索引的Slot存储的是方法所属对象实例的引用,因此在方法内可以通过关键字this来访问到这个隐含的参数。其余的方法,参数按照参数表顺序排列,参数表分配完毕之后,再根据方法体内定义的变量的顺序和作用域分配。

  • :局部变量不像类变量那样存在“准备阶段”(对变量设置零值的阶段),如果一个局部变量被定义了却没有赋予初始值是不能使用的。
操作数栈

操作数栈称为操作栈,它是一个后进先出的栈,当一个方法开始执行时,这个方法的操作数栈是空的,在方法执行的过程中,由字节码指令往栈中存数据和取数据,也就是入栈和出栈操作。栈中的任何一个元素都是可以任意的Java数据类型。

操作数栈中元素的数据类型必须和字节码指令的序列严格匹配,这由编译器在编译器期间进行验证,同时在类加载过程中的类检验阶段的数据流分析阶段要再次验证。

Java虚拟机的解释引擎是基于栈的执行引擎,其中的"栈"指的就是操作数栈。

动态链接

每个栈帧都包含一个指向运行时常量池中该栈帧所属方法的引用,持有该引用是为了支持方法调用过程中的动态连接。Class文件的常量池中有大量的符号引用,字节码中的方法调用指令就以常量池中指向方法的符号引用为参数,这些符号引用一部分会在类加载阶段或者第一次使用的时候就转化为直接引用,这种称为静态解析。另外一部分将在每一次运行期间转化为直接引用,这部分称为动态连接。

返回地址

当一个方法开始执行后,只有两种方式可以退出这个方法。

  • 执行引擎遇到任意一个方法返回的字节码指令,这时候可能会有返回值传递给上层的方法调用者,是否有返回值和返回值的类型由方法返回指令决定,这种退出方法的方式成为正常完成出口。

  • 方法执行过程中遇到了异常,并且这个异常没有在方法体内得到处理,这种退出方式称为异常完成出口。一个方法使用异常完成出口的方式退出,是不会给它的上层调用者产生任何返回值的。

无论采用何种退出方式,在方法退出之后,都需要返回到方法被调用的位置,程序才能继续执行,一般来说,方法正常退出是,调用者的PC计数器的值可以作为返回地址,栈帧中很可能会保存这个计数器值。而方法异常退出时,返回地址是要通过异常处理器表来处确定的,栈帧中一般不会保存这部分信息。

本质上,方法的退出就是当前栈帧出栈的过程。

方法调用

方法调用的主要任务就是确定被调用方法的版本(即调用哪一个方法),该过程不涉及方法具体的运行过程。方法调用在Class文件中存储的都是符号引用,而不是方法在实际运行时内存布局中的直接引用。这个特性给Java带来更强大的动态扩展能力,但也使得Java方法调用变得复杂,需要在类加载期间,甚至到运行期间才能确定目标方法的直接引用。

按照调用方式共分为两类:

  • 解析调用:是静态的过程,在编译期间就完全确定目标方法。

  • 分派调用:即可能是静态,也可能是动态的,根据分派标准可以分为单分派和多分派。两两组合有形成了静态单分派、静态多分派、动态单分派、动态多分派

解析调用

定义:所有方法调用中的目标方法在Class文件中都是一个常量池中的符号引用,在类加载的解析阶段,会将其中一部分符号引用转化为直接应用,也就是在编译阶段就能够确定唯一的目标方法,这类方法的调用称为解析调用

这种解析能成立的前提是:方法在程序真正运行前就有一个可确定的调用版本,并且这个方法的调用版本在运行期是不可变的。换句话说,调用目标在程序代码写好、编译器进行编译时就必须确定下来。

符合这个要求的方法主要包括静态方法和私有方法两大类,前者与类型直接关联,后者在外部不可被访问。这两种方法各各自的特点决定了它们不可能通过继承或别的方式重写其他版本,因此它们都适合在类加载阶段进行解析。符合这两类的方法主要有以下几种:静态方法、私有方法、实例构造器、父类方法。

Java虚拟机提供了5条方法调用字节码指令,分别如下:

  • invokestatic:调用静态方法,解析阶段确定唯一方法版本
  • invokespecial:调用实例构造器方法、私有方法和父类方法,解析阶段确定唯一方法版本
  • invokevirtual:调用所有的虚方法
  • invokeinterface:调用接口方法,会在运行时再确定一个实现此接口的对象
  • invokedynamic:动态解析要调用的方法,然后执行

前四条指令固化在虚拟机内部,方法的调用执行不可认为干预,而invokedynamic指令则支持由用户确定方法版本。被invokestaticinvokespecial指令调用的方法(也称为非虚方法),都可以在解析阶段中确定唯一调用版本,它们在类加载的时候就会把符号引用解析为该方法的直接引用。

分派调用
  • 静态分派:所有依赖静态类型来定位方法执行版本的分派动作称为静态分派。与静态分派相关的就是方法的重载,重载时根据参数的静态类型引用类型而非实际类型决定调用哪个版本。

  • 动态分派:在运行期根据实际类型确定方法执行版本的分派过程称为动态分派。与动态分派相关的就是方法的重写,在子类中我们会重写父类的方法,而在调用的时候根据实际类型来决定调用的版本。

  • 单分派与多分配:方法的接收者(存在方法的类)与方法的参数统称为方法的宗量,根据分派基于多少种宗量,可以将分派划分为单分派和多分派。单分派根据一个宗量确定调用方法的版本;多分派根据多个宗量确定调用方法的版本。

静态多分派,动态单分派

静态分派在编译期阶段,会根据静态类型与参数类型确定调用版本,产生多条分别指向不同方法的指令。即静态分派在编译期,是由多个宗量确定调用版本,是静态多分派。

动态分派在运行期,在执行方法时,已经确定了参数,方法签名确定,静态类型和实际类型此时都不会对方法本身产生任何影响,而虚拟机会根据实际类型来确定调用版本,只根据一个宗量进行确定。即动态分派在运行期,只根据一个宗量确定调用版本,是动态单分派。

动态分派的实现

动态分派在Java中被大量使用,使用频率及其高,如果在每次动态分派的过程中都要重新在类的方法元数据中搜索合适的目标的话就可能影响到执行效率,因此JVM在类的方法区中建立**虚方法表(virtual method table)**来提高性能。

每个类中都有一个虚方法表,表中存放着各个方法的实际入口。如果某个方法在子类中没有被重写,那子类的虚方法表中该方法的地址入口和父类该方法的地址入口一样,即子类的方法入口指向父类的方法入口。如果子类重写父类的方法,那么子类的虚方法表中该方法的实际入口将会被替换为指向子类实现版本的入口地址。

虚方法表会在类加载的连接阶段被创建并开始初始化,类的变量初始值准备完成之后,JVM会把该类的方法表也初始化完毕。

对象的创建和引用

对象的创建

在虚拟机的创建过程主要步骤:

类加载 ——> 内存分配 ——> 内存空间初始化 ——> 对象头设置 ——> 构造方法使用

类加载

虚拟机遇到一个 new 指令时,会先走类加载过程,类加载详细过程参考博主的上一篇博文JVM学习小结1的类加载部分

内存分配方式

在类加载检查通过后,虚拟机将为新生对象分配内存,对象所需的内存大小在类加载完成后可完全确定,为对象分配空间的任务等同于把一块确定大小的内存从 Java 堆中划分出来。

内存分配方式有指针碰撞空闲列表
在这里插入图片描述

  • 指针碰撞:如果 Java 堆中内存是绝对规整的,所有被使用过的内存和空闲的内存中间用一个指针作为分界点分离,那分配内存就是把那个指针向空闲空间方向挪动一段与对象大小相等的距离。

  • 空闲列表:如果 Java 堆中的内存并不是规整的,虚拟机就必须维护一个列表,记录上哪些内存块是可用的,在分配的时候从列表中找到一块足够大的空间划分给对象实例,并更新列表上的记录。

采用哪种分配方式取决于垃圾收集器是否带有压缩整理功能。

当使用Serial、ParNew等带压缩整理过程的收集器时,系统采用的分配算法是指针碰撞,既简单又高效。

当使用 CMS 这种基于清除(Sweep)算法的收集器时,理论上就只能采用较为复杂的空闲列表来分配内存。

内存分配中的并发问题

对象创建在虚拟机中是非常频繁的,即使仅仅修改一个指针所指向的位置,在并发情况下也并不是线程安全的,可能出现正在给对象 A 分配内存,指针还没来得及修改,对象 B 又同时使用了原来的指针来分配内存的情况。

解决这个问题有两种可选方案:

  1. 对分配内存空间的动作进行同步处理,实际上虚拟机是采用CAS配上失败重试的方式保证更新操作的原子性。
  2. 把内存分配的动作按照线程划分在不同的空间之中进行,即每个线程在 Java 堆中预先分配一小块内存,称为本地线程分配缓冲(Thread Local Allocation Buffer,TLAB),哪个线程要分配内存,就在哪个线程的本地缓冲区中分配,只有本地缓冲区用完了,分配新的缓存区时才需要同步锁定。
内存分配策略

如果启用了本地线程分配缓冲,则优先在TLAB上分配

  • 对象分配

优先在Eden区分配。在大多数情况下,对象在新生代Eden区中分配,当Eden区没有足够空间分配时,VM发起一次Minor GC(新生代垃圾收集),执行复制算法,将还存活的对象存到空闲Survivor区中,如果这个区域放不下,则会通过空间分配担保机制(下一篇博文介绍)使对象提前进入老年代。

大对象指需要大量连续内存的Java对象,如很长的字符串和数组等,这样的对象容易导致还有不少空闲内存(不连续)就提前触发GC以获取足够的连续空间,所以大对象直接进入老年代。可设置-XX:PretenureSizeThreshold参数,令大于该值的大对象直接分配到老年代,这样可以避免在Eden区产生大量的内存浪费。

  • 对象晋升

年龄阈值:VM为每个对象定义了一个对象年龄计数器,对象在Eden出生每经过一次Minor GC后仍然存活,且能被Survivor容纳的话,将被移动到Survivor空间中,并年龄+1。当增加到一定程度(-XX:MaxTenuringThreshold, 默认15),将会晋升到老年代。

提前晋升: 动态年龄判定。VM并不总是要求对象的年龄必须达到参数设定值才能晋升老年代,如果在Survivor空间中相同年龄所有对象大小的总和,大于Survivor空间的一半,年龄大于或等于该年龄的对象就可以直接进入老年代,而无须等到晋升年龄。

内存空间初始化

内存分配完成后,虚拟机需要将分配到的内存空间都初始化为零值(不包括对象头)。这步操作保证了对象的实例字段在 Java 代码中可以不赋初始值就直接使用,使程序能访问到这些字段的数据类型所对应的零值。

如果使用 TLAB,这一工作也可以提前至 TLAB 分配时进行

对象头设置

接下来虚拟机要对对象进行必要设置,例如对象是哪个类的实例、如何才能找到类的元数据信息、对象的哈希码、对象的 GC 分代年龄信息,这些信息会存到对象的对象头中。根据虚拟机当前运行状态的不同,例如是否启用偏向锁等,会对对象头有不同的设置方式。

对象的内存布局

在 HotSpot 虚拟机中,对象在内存中存储的布局可以分为3块区域

  • 对象头(Header)
  • 实例数据(Instance Data)
  • 对齐填充(Padding)
对象头

HotSpot虚拟机的对象头包括两部分信息

  1. 对象头信息

对象头信息用于存储对象自身的运行时数据,如哈希码、GC 分代年龄、锁状态标志、线程持有的锁、偏向线程 ID、偏向时间戳等。这部分数据的长度在32位和64位的虚拟机中分别为32bit和64bit。对象头信息设计成一个有着动态定义的数据结构,以便在极小的空间内存储尽量多的数据,根据对象的状态复用自己的存储空间。

  1. 类型指针

对象头类型指针对象是指向它的类型元数据的指针,虚拟机通过这个指针来确定这个对象是哪个类的实例,但是查找对象的元数据信息并不一定要经过对象本身。

另外,如果一个对象是 Java 数组,那在对象头中还必须有一块来记录数组长度的数据,因为虚拟机可以通过普通 Java对象的元数据信息确定 Java对象大小,但是从数组的元数据中却无法确定数组的大小。

实例数据

实例数据部分是对象真正存储的有效信息,也是在程序代码中所定义的各种类型的字段内容。无论是从父类继承的还是子类定义的,都需要记录下来。

这部分的存储顺序会受到虚拟机分配策略参数(-XX:FieldsAllocationStyle 参数)和字段在 Java 源码中定义顺序的影响。如果 HotSpot 虚拟机的 +XX:CompactFields 参数值为 true(默认为 true),那子类之中较窄的变量也允许插入父类变量的空隙之中,以节省出一点点空间。

对齐填充

对齐填充并不是必然存在的,也没有特别的含义,它仅仅起着占位符的作用,可以简单的理解为二进制数据位补齐的操作。

由于 HotSpot VM 的自动内存管理系统要求对象起始地址必须是8字节的整数倍,也就是说对象大小必须是8字节的整数倍。因此,对象实例数据部分没有对齐时,就需要通过对齐填充来补全。

对象的访问方式

Java 程序需要通过栈上的 reference 数据来操作堆上的具体对象,对象访问方式取决于虚拟机的实现,目前主流的访问方式有使用句柄直接指针两种。

reference类型表示对一个实例对象的引用,虚拟机规范没有说明它的长度,也没有明确指出这种引用应该具有的结构。一般来说,虚拟机实现至少能应当通过这个引用做到两点:一是从此引用中直接或间接地查找到对象在Java堆中的数据存放的起始地址索引,二是引用中直接或间接地查找到对象所属数据类型在方法区中的类型信息。 对于64位的数据类型,虚拟机会以高位对齐的方式为其分配两个连续的Slot空间。

使用句柄

Java 堆中将可能会划分出一块内存来作为句柄池,reference 中存储的就是对象的句柄地址,而句柄中包含了对象实例数据与类型数据各自具体的地址信息。

在这里插入图片描述

直接指针

Java 堆中对象的内存布局就必须考虑如何放置访问类型数据的相关信息,reference 中存储的直接就是对象地址,如果只是访问对象本身的话,就不需要多一次间接访问的开销。

在这里插入图片描述

两种方式的比较

句柄访问的最大好处就是 reference 中存储的是稳定句柄地址,在对象被移动(垃圾收集时移动对象是非常普遍的行为)时只会改变句柄中的实例数据指针,而 reference 本身不需要被修改。

直接指针来访问最大的好处就是速度更快,它节省了一次指针定位的时间开销,由于对象访问在 Java 中非常频繁,因此这类开销积少成多也是一项极为可观的执行成本,

HotSpot 虚拟机主要使用第二种方式

参考博文

【1】:Java JVM 从虚拟机的角度看对象的创建与访问

【2】:JVM字节码执行引擎

【3】:JVM执行过程与结构分析

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值