18.2 第一步:配置
DataCleaner的配置在类DataCleanerConfiguration(以前是“AnalyzerBeansConfiguration”类)中表示。您需要DataCleanerConfiguration作为大多数后续操作的先决条件。
获取DataCleanerConfiguration实例最简单、可能也是最方便的方法是从一个文件中加载(通常名为conf.xml格式(有关此文件格式的详细信息,请参阅配置文件一章)。要加载文件,请使用JaxbConfigurationReader类,如下所示:
InputStream inputStream = new FileInputStream("conf.xml");
JaxbConfigurationReader configurationReader = new JaxbConfigurationReader();
DataCleanerConfiguration configuration = configurationReader.read(inputStream);
或者,您可以通过代码以编程方式构建配置。这通常比较麻烦,但在某些情况下,如果要动态构建配置或类似的配置,这也非常有用。
下面是一个示例,我们使用2个示例数据存储和10个线程的线程池配置DataCleaner:
Datastore datastore1 = new CsvDatastore("my CSV file", "some_data.csv");
boolean multipleConnections = true
Datastore datastore2 = new JdbcDatastore("my database",
"jdbc:vendor://localhost/database", "com.database.Driver",
"username", "password", multipleConnections);
DataCleanerConfigurationImpl configuration = new DataCleanerConfigurationImpl();
configuration = configuration.replace(new MultiThreadedTaskRunner(10));
configuration = configuration.replace(new DatastoreCatalogImpl(datastore1, datastore2));
无论采用哪种方式,我们现在都有一个变量名为“configuration”的DataCleanerConfiguration。然后我们可以继续定义要运行的作业。