1、Hadoop使用了一套独有的配置文件管理系统,并提供自己的API,即使用org.apache.hadoop.conf.Configuration处理配置信息。
2、Hadoop配置文件采用XML格式,在Configuration中每个属性都是String类型的,但值类型可能是多种类型的。
3、使用Configuration过程:构造Configuration对象,并通过addResource()方法添加需要加载的资源。然后就可以使用get方法和set方法访问/设置配置项,资源会在第一次使用的时候自动加载到对象中。
4、Configuration有七个主要的非静态成员变量:
4.1、quietmode。用来设置加载配置的模式。布尔变量。如果设置为true,在加载解析配置文件过程中,不输出日志信息。
4.2、数组resources保存了所有通过addResource()方法添加Configuration对象的资源。
4.3、布尔变量loadDefaults用于确定是否加载默认资源,通过方法addDefaultResource()可以添加系统的默认资源。
4.4、变量finalParameters的类型是Set<String>
,用来保存所有在配置文件中已经被声明为final的键值对的键。
4.5、properties是配置相关的成员变量,Hadoop配置文件解析后的键值对都存放在properties中。
4.6、变量overlay用于记录通过set()方式改变的配置项。即在overlay中的键值对是应用设置的,而不是通过对配置资源解析得到的。
4.7、classLoader,类加载器变量,可以通过它来加载指定类,也可以通过它来加载相关的资源。
5、资源加载
资源通过对象的addResource()
方法或类的静态addDefaultResource()
方法(设置loadDefaults标志)添加到Configuration对象中,添加的资源并不会被立即加载,只是通过reloadConfiguration()
方法清空properties和finalParameters。成员变量properties中的数据直到需要的时候才会加载进来。当真正需要配置数据的时候,才开始分析配置文件。
6、Hadoop的Configuration是通过DOM处理XML的。
7、Configuration.get()
方法是所有get方法中最重要的,它根据配置项的键获取相应的值,如果不存在,则返回默认属性。Configuration.get()
会调用Configuration的私有方法substituteVars()
,该方法会完成配置的属性扩展。属性扩展指配置项的值包含${key}
这种格式的变量,这些变量会被自动替换成相应的值,使用的是正则表达式匹配。
借鉴于《Hadoop技术内幕-Common和HDFS架构设计与实现》一书。