什么是 JVM 字节码?深度剖析字节码工作原理!

嗨,你好啊,我是猿java

作为 Java程序员都知道 Java是跨平台的语言,编译一次到处运行,这得益于 JVM字节码,这篇文章,我们将一起分析什么是 JVM字节码以及 JVM字节码是如何工作的?

什么 JVM 字节码?

Java 源代码经过编译器编译后,就会生成 JVM 字节码,它是一种基于栈的低级、中立于平台的指令架构,每个字节码指令都会在 JVM 上执行一系列的操作,如加载、存储、运算、跳转等。它使用基于操作数栈和局部变量表的执行模型。

JVM 字节码具有以下特点:

  • 独立于具体的硬件和操作系统,不同平台上的 JVM 可以解释和执行相同的字节码文件。
  • 相对于机器码和源代码,JVM 字节码是一种更高级别的抽象,并且比机器码更容易阅读和编写。
  • JVM 字节码通过运行时的即时编译器或解释器执行。

因此,只要在不同平台上安装相应的 JVM,就能在这些平台上运行相同的字节码,这种特性为 Java 程序提供了很高的可移植性和兼容性。值得注意的是,其他编程语言也可以编译成 JVM 字节码,利用 JVM 的优势。这些编程语言叫做基于 JVM 的语言,例如 Kotlin、Groovy 等。

如何查看 JVM 字节码?

通过 javap -c ClassName指令就可以查看 JVM字节码,为了更好的说明,下面通过一个简单的 Java程序和对应的 JVM字节码示例来进行演示:

示例代码

如下代码,在控制台输出“Hello, World”:

1
2
3
4
5
public class HelloWorld {
public static void main(String[] args) {
System.out.println("Hello, World!");
}
}

使用 javac 命令编译上述 Java 源代码后会生成一个 HelloWorld.class 文件,然后使用javap -c HelloWorld命令查看字节码,内容如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Compiled from "HelloWorld.java"
public class HelloWorld {
public HelloWorld();
Code:
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return

public static void main(java.lang.String[]);
Code:
0: getstatic #2 // Field java/lang/System.out:Ljava/io/PrintStream;
3: ldc #3 // String Hello, World!
5: invokevirtual #4 // Method java/io/PrintStream.println:(Ljava/lang/String;)V
8: return
}

字节码解释

1.构造方法 HelloWorld()

  • aload_0: 加载局部变量表中第一个变量(即this引用)。
  • invokespecial #1: 调用父类(java/lang/Object)的构造方法。
  • return: 从构造方法返回。

2. main方法

  • getstatic #2: 获取静态字段java/lang/System.out,它是一个 PrintStream 对象。
  • ldc #3: 将常量池中索引为3的项(即字符串”Hello, World!”)加载到操作数栈。
  • invokevirtual #4: 调用 PrintStream 的 println 方法,参数是栈顶的字符串。
  • return: 从main方法返回。

3. 关键字节码指令解析

  • aload_0: 加载局部变量表中索引为 0的引用类型变量到操作数栈。
  • invokespecial: 调用实例初始化方法和私有方法。
  • getstatic: 获取静态字段的值并将其压入操作数栈。
  • ldc: 将常量池中的常量加载到操作数栈。
  • invokevirtual: 调用对象的实例方法,方法的选择是基于对象的运行时类型。

通过这个示例,我们可以看到 Java源代码被编译成 JVM 字节码后是什么样子。

JVM字节码指令集

通过上述查看 JVM字节码的示例,我们可以看到很多 JVM内部的指令,比如加载、存储、运算、跳转等。JVM字节码指令集(Bytecode Instruction Set)是 JVM用来执行 Java 程序的指令集合,每条字节码指令由一个字节的操作码(opcode)和可选的操作数组成。

以下是 JVM 字节码指令集的一些主要类别和具体指令:

加载和存储指令

加载和存储指令,全称 Load and Store Instructions,包含以下几个指令:

  • aload: 从局部变量表加载引用类型变量到操作数栈。
  • astore: 将操作数栈顶的引用类型变量存储到局部变量表。
  • iload: 从局部变量表加载整数类型变量到操作数栈。
  • istore: 将操作数栈顶的整数类型变量存储到局部变量表。
  • dload, fload, lload: 加载双精度浮点数、单精度浮点数和长整数类型变量。
  • dstore, fstore, lstore: 存储双精度浮点数、单精度浮点数和长整数类型变量。

算术运算指令

算术运算指令,全称 Arithmetic Instructions,包含以下几个指令:

  • iadd: 对栈顶的两个整数进行加法运算。
  • isub: 对栈顶的两个整数进行减法运算。
  • imul: 对栈顶的两个整数进行乘法运算。
  • idiv: 对栈顶的两个整数进行除法运算。
  • iinc: 对局部变量表中的整数变量进行自增。
  • dadd, fadd, ladd: 加法运算(双精度浮点数、单精度浮点数、长整数)。
  • dsub, fsub, lsub: 减法运算(双精度浮点数、单精度浮点数、长整数)。

类型转换指令

类型转换指令,全称 Type Conversion Instructions,包含以下几个指令:

  • i2d: 整数转双精度浮点数。
  • i2f: 整数转单精度浮点数。
  • i2l: 整数转长整数。
  • d2i, f2i, l2i: 转换为整数。

对象操作指令

对象操作指令,全称 Object Manipulation Instructions,包含以下几个指令:

  • new: 创建一个新的对象实例。
  • newarray: 创建一个新的数组。
  • anewarray: 创建一个新的引用类型数组。
  • checkcast: 检查对象是否为某一类型的实例。
  • instanceof: 判断对象是否是某一类型的实例。

方法调用和返回指令

方法调用和返回指令,全称 Method Invocation and Return Instructions,包含以下几个指令:

  • invokestatic: 调用静态方法。
  • invokevirtual: 调用实例方法,根据对象的实际类型进行分派。
  • invokespecial: 调用实例初始化方法、私有方法和父类方法。
  • invokeinterface: 调用接口方法。
  • return: 从方法返回(无返回值)。
  • ireturn, dreturn, freturn, lreturn, areturn: 从方法返回(返回值为整数、双精度浮点数、单精度浮点数、长整数、引用类型)。

控制流指令

控制流指令,全称 Control Flow Instructions,包含以下几个指令:

  • goto: 无条件跳转。
  • ifeq: 如果栈顶整数为0,则跳转。
  • ifne: 如果栈顶整数不为0,则跳转。
  • iflt, ifge, ifgt, ifle: 比较栈顶整数,并根据结果跳转。
  • tableswitch: 用于switch语句的多路分支跳转。
  • lookupswitch: 用于switch语句的查找表跳转。

异常处理指令

异常处理指令,全称 Exception Handling Instructions,包含以下几个指令:

  • athrow: 抛出异常或错误。
  • try-catch块:通过异常表实现,不是具体的字节码指令。

同步指令

同步指令,全称 Synchronization Instructions,包含以下几个指令:

  • monitorenter: 获取对象的监视器锁。
  • monitorexit: 释放对象的监视器锁。

栈操作指令

栈操作指令,全称 Stack Operations Instructions,包含以下几个指令:

  • pop: 弹出栈顶的一个元素。
  • dup: 复制栈顶的一个元素。
  • swap: 交换栈顶的两个元素。

JVM 如何执行字节码?

JVM 字节码的执行过程主要依赖于 Java 虚拟机的解释器和即时编译器(Just-In-Time Compiler,简称JIT)。JVM会将字节码读取到内存中,并逐条解释执行,或者将热点代码编译为机器码来提高执行效率。

为了更好的说明 JVM 字节码的执行过程,我们还是通过一个具体的示例来进行说明。

示例代码

这里以 a + b 求和为例,代码如下:

1
2
3
4
5
public class Sum {
public static int add(int a, int b) {
return a + b;
}
}

使用 javap -c Sum 命令获取字节码,具体信息如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Compiled from "Sum.java"
public class Sum {
public Sum();
Code:
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: return

public static int add(int, int);
Code:
0: iload_0
1: iload_1
2: iadd
3: ireturn
}

字节码解释

1. 构造方法 Sum()

  • aload_0: 加载局部变量表中第一个变量(即this引用)。
  • invokespecial #1: 调用父类(java/lang/Object)的构造方法。
  • return: 从构造方法返回。

2. add()方法

  • iload_0: 加载局部变量表中索引为0的整数(即参数a)到操作数栈。
  • iload_1: 加载局部变量表中索引为1的整数(即参数b)到操作数栈。
  • iadd: 弹出操作数栈顶的两个整数,进行加法运算,并将结果压入操作数栈。
  • ireturn: 从方法返回,并将操作数栈顶的整数作为返回值。

执行过程

假设我们在另一个类中调用Sum.add(2, 3),执行过程如下:

  • JVM将参数 2和 3压入局部变量表,iload_0指令将参数 2加载到操作数栈。
  • iload_1指令将参数 3加载到操作数栈。
  • iadd指令弹出操作数栈顶的两个值(2和3),进行加法运算,将结果5压入操作数栈。
  • ireturn指令将操作数栈顶的值(5)作为返回值返回给调用者。

总结

本文,我们分析了什么是 JVM字节码,如何查看 JVM字节码以及JVM是如何执行字节码,掌握这些底层不但可以帮助我们更好的理解,为什么 Java可以编译一次,到处运行,还可以帮助我们更好的了解 Java的运行机制以及理解 Java的编程精髓。

学习交流

如果你觉得文章有帮助,请帮忙转发给更多的好友,或关注公众号:猿java,持续输出硬核文章。

drawing