JVM Class Loader Subsystem

发表于 2019-02-10 更新于 2024-02-08 分类于 Java 阅读次数：

Class文件结构

Class文件时一组以8位字节为基础单位的二进制流，各个数据项目严格按照顺序紧凑地排列在Class文件之中，中间没有添加任何分隔符，这使得整个Class文件中存储的内容几乎全部是程序运行的必要数据。

Class文件本身是由下图的这些数据类型组成，这些数据项之间并没有分隔符，而是通过约定好的规范和表结构填入对应的信息，从而将Java语言代码翻译成字节码。Class文件数据项包含如下这些类型。

1. 魔数

第1~4字节：0xCAFEBABE

2. Class文件的版本

第5、6字节：次版本号（4x.0~4x.65535）

第7、8字节：主版本号（45~）

3. 常量池

常量池入口放置一项u2类型的数据，代表常量池容量计数值，从1开始。0作为没有常量池的表述。

字面量：接近Java语言层面常量概念，如文本字符串、声明为final的常量值等。
符号引用：编译原理概念，包括三类常量：
1. 类和接口的全限定名
2. 字段的名称和描述符
3. 方法的名称和描述符

常量池中每一项常量都是一个表。JDK中定义了14种结构的表结构数据，如下图所示：

表开始的第一位都是一个u1类型的标志位（binary 0000 0000 0000 0000 中某几位为1），代表本表属于哪种常量类型，而后则遵从常量表自己的格式填入数据，结构总表如下所示。

4. 访问标志

常量池后面两个字节：以16个标志位识别类或接口层次的访问信息，包括：

1. Class是类还是接口；
2. 是否为public类型；
3. 是否为abstract类型；
4. 如果是类的话，是否被声明为final。

访问标志本身总共由16个标志位可以使用，具体代表如下图所示：

5. 类索引、父类索引和接口索引集合

类索引和父类索引都是一个u2类型的数据，而接口索引集合是一组u2类型的数据的集合，Class文件中由这三项数据确定这个类的全限定名。

类索引和父类索引都指向了一个CONSTANT_Class_info类，而接口所以则第一位是接口的个数，后面跟了相应个数的索引分别指向CONSTANT_Class_info类。

6. 字段表集合

字段表用于描述接口或者类中声明的变量。字段包括类级变量以及实例级变量，但不包括在方法内部声明的局部变量。

字段结构如下所示：

字段的访问标志位有如下这些表格，标志位值和Class访问标志定义一样，但是支持的标志个数不一样：

name_index保存的是对常量池CONSTANT_Utf8的引用，保存了方法简单名称。

全限定名和简单名称很好理解，“org/fenixsoft/clazz/TestClass”是这个类的全限定名，仅仅是把类全名中的“.”替换成了“/”而已，为了使连续的多个全限定名之间不产生混淆，在使用时最后一般会加入一个“;”表示全限定名结束。简单名称是指没有类型和参数修饰的方法或者字段名称，这个类中的inc()方法和m字段的简单名称分别是“inc”和“m”。
描述符引用指向了一个字段/方法描述符CONSTANT_Utf8。
- 字段描述符，比如int实例变量的描述符是“I”;java.lang.Object 的实例描述符是 “Ljava/lang/Object;”，“double[][][]”的描述符为“[[[D”;
- 方法描述符，比如Object mymethod(int i, double d, Thread t)的描述符为 (IDLjava/lang/Thread;)Ljava/lang/Object;。
描述符支持如下类型：

7. 方法表集合

方法表用于描述接口或者类中声明的方法，包括类级方法以及实例方法。表结构跟字段表相似，在此不再赘述。

方法的访问标志与字段不同，如下图:

8. 属性表集合

属性表并不是单独存在的表，而是在Class文件、字段表、方法表都可以携带自己的属性表集合，用于描述某些场景专有的信息。属性表结构对后续属性进行了总表，结构如下:

目前虚拟机规范定义了下列属性：

字节码指令

Java编译器将代码的操作本身处理生成了字节码指令，放在了Code属性中，JVM读取指令进行执行。JVM支持的字节码指令和操作数如表格所示:

Class加载时机

5大主动引用场景：

遇到new、getstatic、putstatic或invokestatic这4条字节码指令时，如果类没有进行过初始化，则需要先触发其初始化。生成这4条指令的最常见的Java代码场景是：使用new关键字实例化对象的时候、读取或设置一个类的静态字段（被final修饰、已在编译期把结果放入常量池的静态字段除外）的时候，以及调用一个类的静态方法的时候。
使用java.lang.reflect包的方法对类进行反射调用的时候，如果类没有进行过初始化，则需要先触发其初始化。
当初始化一个类的时候，如果发现其父类还没有进行过初始化，则需要先触发其父类的初始化。
当虚拟机启动时，用户需要指定一个要执行的主类（包含main()方法的那个类），虚拟机会先初始化这个主类。
当使用JDK 1.7的动态语言支持时，如果一个java.lang.invoke.MethodHandle实例最后的解析结果REF_getStatic、REF_putStatic、REF_invokeStatic的方法句柄，并且这个方法句柄所对应的类没有进行过初始化，则需要先触发其初始化。

不会出发加载的三个被动引用例子：

通过子类引用父类的静态字段，不会导致子类初始化。
通过数组定义来引用类，不会出发此类的初始化。
常量在编译阶段会存入调用类的常量池中，本质上没有直接引用到定义敞亮的类，因此不会触发定义常量的类的初始化。

Class加载过程

类从被加载到虚拟机内存中开始，到卸载出内存为止，它的整个生命周期包括：加载（Loading）、验证（Verification）、准备（Preparation）、解析（Resolution）、初始化（Initialization）、使用（Using）和卸载（Unloading）7个阶段。其中验证、准备、解析3个部分统称为连接（Linking），这7个阶段的发生顺序如下图所示。

加载

通过一个类的全限定名来获取定义此类的二进制字节流
将字节流所代表的静态存储结构转化为方法区的运行时数据结构：
- 如果是数组，JVM会直接创建数组类
  1. 引用类型的数组：递归采用类加载过程去加载这个类型
  2. 如果是非引用类型的数组：JVM将会把数组标记为引导类加载器关联。
在内存中生成一个代表这个类的java.lang.Class对象，作为方法区这个类的各种数据访问入口。

验证

文件格式验证

验证字节流是否符合Class文件格式的规范。

元数据验证

对字节码描述的信息进行语义分析，以保证其描述的信息符合Java语言规范要求。

字节码验证

通过数据流和控制流分析，确定程序语义是合法的、符合逻辑的。

符号引用验证

发生在符号引用转化为直接引用的时候，是对类自身意外（常量池里的各种符号引用）信息进行匹配性校验。

准备

正式为变量分配内存并设置类变量为初始值阶段。引用类型的内存分配具体步骤参考JVM新对象创建。

解析

虚拟机将常量池内的符号引用替换为直接引用的过程。

符号引用：符号引用以一组符号来描述引用的目标，符号可与是任何形式的字面量，只要能无歧义的定义到目标即可。
直接引用：直接引用可以是直接指向目标的指针、相对偏移量或是一个能间接定位到目标的句柄。

解析动作主要针对如下：

类或接口 CONSTANT_Class_info
字段 CONSTANT_Fieldref_info
类方法 CONSTANT_Methodref_info
接口方法 CONSTANT_InterfaceMethodref_info
方法类型 CONSTANT_MethodType_info
方法句柄 CONSTANT_MethodHandle_info
和调用点限定符 CONSTANT_InvokeDynamic_info

这7类符号引用进行。

类或接口的解析
1. 如果C不是一个数组类型，那虚拟机将会把代表N的全限定名传递给D的类加载器去加载这个类C。在加载过程中，由于元数据验证、字节码验证的需要，又可能触发其他相关类的加载动作，例如加载这个类的父类或实现的接口。一旦这个加载过程出现了任何异常，解析过程就宣告失败。
2. 如果C是一个数组类型，并且数组的元素类型为对象，也就是N的描述符会是类似“[Ljava/lang/Integer”的形式，那将会按照第1点的规则加载数组元素类型。如果N的描述符如前面所假设的形式，需要加载的元素类型就是“java.lang.Integer”，接着由虚拟机生成一个代表此数组维度和元素的数组对象。
3. 如果上面的步骤没有出现任何异常，那么C在虚拟机中实际上已经成为一个有效的类或接口了，但在解析完成之前还要进行符号引用验证，确认D是否具备对C的访问权限。如果发现不具备访问权限，将抛出java.lang.IllegalAccessError异常。
字段解析
1. 首先将会对字段表内class_index项中索引的CONSTANT_Class_info符号引用进行解析，也就是字段所属的类或接口的符号引用。如果在解析这个类或接口符号引用的过程中出现了任何异常，都会导致字段符号引用解析的失败。
2. 如果C本身就包含了简单名称和字段描述符都与目标相匹配的字段，则返回这个字段的直接引用，查找结束。
3. 否则，如果在C中实现了接口，将会按照继承关系从下往上递归搜索各个接口和它的父接口，如果接口中包含了简单名称和字段描述符都与目标相匹配的字段，则返回这个字段的直接引用，查找结束。
4. 否则，如果C不是java.lang.Object的话，将会按照继承关系从下往上递归搜索其父类，如果在父类中包含了简单名称和字段描述符都与目标相匹配的字段，则返回这个字段的直接引用，查找结束。
5. 否则，查找失败，抛出java.lang.NoSuchFieldError异常。
类方法解析
1. 首先将会对字段表内class_index项中索引的CONSTANT_Class_info符号引用进行解析
2. 类方法和接口方法符号引用的常量类型定义是分开的，如果在类方法表中发现class_index中索引的C是个接口，那就直接抛出java.lang.IncompatibleClassChangeError异常。
3. 如果通过了第1步，在类C中查找是否有简单名称和描述符都与目标相匹配的方法，如果有则返回这个方法的直接引用，查找结束。
4. 否则，在类C的父类中递归查找是否有简单名称和描述符都与目标相匹配的方法，如果有则返回这个方法的直接引用，查找结束。
5. 否则，在类C实现的接口列表及它们的父接口之中递归查找是否有简单名称和描述符都与目标相匹配的方法，如果存在匹配的方法，说明类C是一个抽象类，这时查找结束，抛出java.lang.AbstractMethodError异常。
6. 否则，宣告方法查找失败，抛出java.lang.NoSuchMethodError。
接口方法解析
1. 首先将会对字段表内class_index项中索引的CONSTANT_Class_info符号引用进行解析
2. 与类方法解析不同，如果在接口方法表中发现class_index中的索引C是个类而不是接口，那就直接抛出java.lang.IncompatibleClassChangeError异常。
3. 否则，在接口C中查找是否有简单名称和描述符都与目标相匹配的方法，如果有则返回这个方法的直接引用，查找结束。
4. 否则，在接口C的父接口中递归查找，直到java.lang.Object类（查找范围会包括Object类）为止，看是否有简单名称和描述符都与目标相匹配的方法，如果有则返回这个方法的直接引用，查找结束。
5. 否则，宣告方法查找失败，抛出java.lang.NoSuchMethodError异常。

初始化

类初始化阶段是类加载过程的最后一步，前面的类加载过程中，除了在加载阶段用户应用程序可以通过自定义类加载器参与之外，其余动作完全由虚拟机主导和控制。到了初始化阶段，才真正开始执行类中定义的Java程序代码。

<clinit>()方法是由编译器自动收集类中的所有类变量的赋值动作和静态语句块（static{}块）中的语句合并产生的，编译器收集的顺序是由语句在源文件中出现的顺序所决定的，静态语句块中只能访问到定义在静态语句块之前的变量，定义在它之后的变量，在前面的静态语句块可以赋值，但是不能访问。
<clinit>()方法与类的构造函数（或者说实例构造器<init>()方法）不同，它不需要显式地调用父类构造器，虚拟机会保证在子类的<clinit>()方法执行之前，父类的<clinit>()方法已经执行完毕。因此在虚拟机中第一个被执行的<clinit>()方法的类肯定是java.lang.Object。
由于父类的<clinit>()方法先执行，也就意味着父类中定义的静态语句块要优先于子类的变量赋值操作，如下在代码清单中，字段B的值将会是2而不是1。

public class Test {
    public static int A = 1;
    static {
        A = 2;
    }
}

static class Sub extends Parent{
    public static int B = A;
}

public static void main(String[] args){
    System.out.println(Sub.B);
}

<clinit>()方法对于类或接口来说并不是必需的，如果一个类中没有静态语句块，也没有对变量的赋值操作，那么编译器可以不为这个类生成<clinit>()方法。
接口中不能使用静态语句块，但仍然有变量初始化的赋值操作，因此接口与类一样都会生成<clinit>()方法。但接口与类不同的是，执行接口的<clinit>()方法不需要先执行父接口的<clinit>()方法。只有当父接口中定义的变量使用时，父接口才会初始化。另外，接口的实现类在初始化时也一样不会执行接口的<clinit>()方法。
虚拟机会保证一个类的<clinit>()方法在多线程环境中被正确地加锁、同步，如果多个线程同时去初始化一个类，那么只会有一个线程去执行这个类的<clinit>()方法，其他线程都需要阻塞等待，直到活动线程执行<clinit>()方法完毕。如果在一个类的<clinit>()方法中有耗时很长的操作，就可能造成多个进程阻塞，在实际应用中这种阻塞往往是很隐蔽的。

使用

卸载

Class加载器

虚拟机设计团队把类加载阶段中的“通过一个类的全限定名来获取描述此类的二进制字节流”这个动作放到Java虚拟机外部去实现，以便让应用程序自己决定如何去获取所需要的类。这种实现便是类加载器。

对于任意一个类，都需要由加载它的类加载器和这个类本身一同确立其在Java虚拟机中的唯一性，每一个类加载器，都拥有一个独立的类名称空间。

类的相等语义，只有在这两个类是由同一个类加载器加载的前提下才有意义，只要类加载器不同，即使是加载自同一个Class文件，两个类也是不等的。（相等指的是，Class对象的equals(), isAssignableFrom(), isInstance()， instantof 的返回结果。例如下面代码运行结果则是：

1 2	class org.fenixsoft.classloading.ClassLoaderTest false

public class ClassLoaderTest{
    public static void main(String[] args) throw Exception {
        // Class ClassLoader define and override
        ClassLoader myLoader = new ClassLoader() {
            @Override
            public Class<?> loadClass(String name) throw ClassNotFoundException{
                try {
                    String fileName = name.substring(name.lastIndextOf(".") + 1) + ".class";
                    InputStream is = getClass().getResourceAsStream(fileName);
                    if(is == null){
                        return super.loadClasse(name);
                    }
                    byte[] b = new bye[is.available()];
                    is.read(b);
                    return defineClass(name, b, 0, b.length);
                }catch(IOException e){
                    throw new ClassNotFoundException(name);
                }
            }
        };

        Object obj = myLoader.loadClass("org.fenixsoft.classloading.ClassLoaderTest").newInstance();

        System.out.println(obj.getClass());
        System.out.println(obj instanceof org.fenixsoft.classloading.ClassLoaderTest);
    }
}

类加载器类型

目前只存在两种不同的类加载器：一种是启动类加载器(Bootstrap ClassLoader)，C++语言实现，虚拟机自身的一部分；另一种就是所有其他类加载器，继承自抽象类java.lang.ClassLoader。

启动类加载器（Bootstrap ClassLoader）：前面已经介绍过，这个类将器负责将存放在\lib目录中的，或者被-Xbootclasspath参数所指定的路径中的，并且是虚拟机识别的（仅按照文件名识别，如rt.jar，名字不符合的类库即使放在lib目录中也不会被加载）类库加载到虚拟机内存中。启动类加载器无法被Java程序直接引用，用户在编写自定义类加载器时，如果需要把加载请求委派给引导类加载器，那直接使用null代替即可，如下列代码清单所示为java.lang.ClassLoader.getClassLoader()方法的代码片段。

public ClassLoader getClassLoader() {
    ClassLoader cl = getClassLoader0();
    if(cl == null)
        return null;
    SecurityManager sm = System.getSecurityManger();
    if(sm != null){
        ClassLoader ccl = ClassLoader.getCallerClassLoader();
        if(ccl != null && ccl != cl && !cl.isAncestor(ccl)){
            sm.checkPermission(SecurityConstants.GET_CLASSLOADER_PERMISSION);
        }
    }
    return cl;
}

扩展类加载器（Extension ClassLoader）：这个加载器由sun.misc.Launcher$ExtClassLoader实现，它负责加载\lib\ext目录中的，或者被java.ext.dirs系统变量所指定的路径中的所有类库，开发者可以直接使用扩展类加载器。
应用程序类加载器（Application ClassLoader）：这个类加载器由sun.misc.Launcher$App-ClassLoader实现。由于这个类加载器是ClassLoader中的getSystemClassLoader()方法的返回值，所以一般也称它为系统类加载器。它负责加载用户类路径（ClassPath）上所指定的类库，开发者可以直接使用这个类加载器，如果应用程序中没有自定义过自己的类加载器，一般情况下这个就是程序中默认的类加载器。

双亲委派模型

图中展示的类加载器之间的这种层次关系，称为类加载器的双亲委派模型（Parents Delegation Model）。双亲委派模型要求除了顶层的启动类加载器外，其余的类加载器都应当有自己的父类加载器。这里类加载器之间的父子关系一般不会以继承（Inheritance）的关系来实现，而是都使用组合（Composition）关系来复用父加载器的代码。

双亲委派模型的工作过程是：

所有的加载请求都委派给父类加载器去完成。
当父类加载器反馈自己无法完成加载请求，子加载器才会尝试自己加载。

双亲委派模型保证了Java程序优先从启动类加载器进行搜索加载，使得java.lang.Object类型在程序的各种类加载环境中都是同一个类，能够稳定运行程序。

双亲委派模型实现如下：

protected synchronized Class<?> loadClass(String name, boolean resolve) throws ClassNotFoundException{
    //首先，检查请求的类是否已经加载过了
    Class c = findLoadedClass(name);
    if( c == null){
        try {
            if(parent != null){
                // 委派父类加载器先去尝试加载
                c = parent.loadClass(name, false);
            }else {
                c = findBootstrapClassOrNull(name);
            }
        } catch (ClassNotFoundException e) {
            // 如果父类加载器抛出异常，说明父类加载器不能加载，因此调用子类进行加载
            c = findClass(name);
        }
    }
    if(resolve) {
        resolveClass(c);
    }
    return c;
}

破坏双亲委派模型情况

loadClass没有按照双亲委派模型进行实现：目前已经不推荐重写loadClass方法，而是重写findClass方法，从而保证模型安全。
第三方JNDI接口提供者/SPI的代码不能被启动类加载器加载：线程上下文类加载器(Tread Context ClassLoader)。可以通过java.lang.Thread类的setContextClassLoader()进行设置。如果父类及应用全局都没有设置过，则默认就是应用程序类加载器。这样就让父类加载器请求子类加载器去加载SPI的代码。
为程序动态性的追求导致：代码热替换(HotSwap),模块热部署(Hot Deployment)等。每一个程序模块都有自己的类加载器，当需要更换一块程序模块是，就把这块代码以及类加载器一起换掉以实现代码的热替换。OSGi收到类加载请求时：
1. 将以java.*开头的类委派给父类加载器加载。
2. 否则，将委派列表名单内的类委派给父类加载器加载。
3. 否则，将Import列表中的类委派给Export这个类的Bundle的类加载器加载。
4. 否则，查找当前Bundle的ClassPath，使用自己的类加载器加载。
5. 否则，查找类是否在自己的Fragment Bundle中，如果在，则委派给Fragment Bundle的类加载器加载。
6. 否则，查找Dynamic Import列表的Bundle，委派给对应Bundle的类加载器加载。
7. 否则，类查找失败。
此实现只有前两个点符合双亲委派模型，后面的都是平级的类加载器中进行。