2021年02月_lover_leo

原创 DataCleaner---16.1 在Pentaho数据集成中配置DataCleaner

16.1 在Pentaho数据集成中配置DataCleaner为了在Pentaho中使用DataCleaner插件，需要在本地安装DataCleaner。DataCleaner安装可以是社区版或专业版。可通过 “Tools” 设置配置。此外，在设置DataCleaner配置之后，可以从同一菜单启动DataCleaner，而不依赖Pentaho中的上下文。点这儿返回DataCleaner文档主目录...

2021-02-26 17:08:38 325

原创 DataCleaner---15.5 Hadoop接口的限制

15.5 Hadoop接口的限制虽然DataCleaner的Hadoop接口允许在Hadoop平台上分布式运行DataCleaner作业，但有一些限制：数据存储支持目前，我们支持来自HDFS的一组有限的源数据存储。CSV文件是这里的主要来源。我们要求HDFS上的文件是UTF8编码的，并且只出现单行值。不可分配组件一些组件本质上是不可分配的。如果您的作业依赖于这些，DataCleaner将求助于在单Spark执行器上执行作业，这可能会对性能产生重大影响。没有Namenode的Hadoo

2021-02-26 15:51:15 125

原创 DataCleaner---15.4 在DataCleaner桌面端使用Hadoop

15.4 在DataCleaner桌面端使用Hadoop在DataCleaner 桌面端中，您可以处理位于HDFS上的CSV数据存储。配置Hadoop集群为了能够在Hadoop集群上从DataCleaner桌面端执行作业，您有许多配置选项，这些选项在选项对话框的Hadoop集群选项卡中进行管理。默认默认情况下，DataCleaner使用 HADOOP_CONF_DIR 和 YARN_CONF_DIR 环境变量来确定Hadoop/Yarn 配置文件（如core-site.xml and ya

2021-02-26 15:42:03 228

原创 DataCleaner---15.3 使用Spark启动DataCleaner作业

15.3 使用Spark启动DataCleaner作业转到Spark安装路径以运行作业。使用以下命令行模板：bin/spark-submit --class org.datacleaner.spark.Main --master yarn-cluster /path/to/DataCleaner-spark.jar/path/to/conf.xml /path/to/job_file.analysis.xml ([/path/to/custom_properties.properties])一种方

2021-02-26 14:50:46 295 1

原创 DataCleaner---15.2 设置Spark和DataCleaner环境

15.2 设置Spark和DataCleaner环境为了工作，Apache Spark需要环境变量HADOOP_CONF_DIR 或 YARN_CONF_DIR中的任何一个到包含Hadoop/Yarn配置文件（如core-site.xml , yarn-site.xml 等.）的目录中。将配置文件上传到HDFSHadoop上的DataCleaner需要一个常规的DataCleaner配置文件(conf.xml格式). 最好将其上传到hadoop分布式文件系统（HDFS）。我们建议将此文件放入路劲 /

2021-02-26 10:58:07 193

原创 DataCleaner---15.1 Hadoop部署概述

15.1 Hadoop部署概述Apache Hadoop是一个分布式系统，有许多关键组件，其中有几个很重要：YARN，通常被称为Hadoop的“操作系统”。YARN是一个管理实体，它为运行特定的作业或任务分配资源。HDFS，这是Hadoop分布式文件系统。这是数据所在的位置，也是共享可执行文件的位置，以便可以在集群中的许多节点上获取分布式进程。Namenode是集群中的一个专用节点，负责处理HDFS和将数据分发给其他节点，即所谓的datanode。此外，DataCleaner Hadoop是使

2021-02-26 10:25:59 222

原创 DataCleaner---14.6 动态重写配置元素

14.6 动态重写配置元素由于DataCleaner2.5版本，因此可以从命令行动态重写配置文件中的元素。这是一个功能，在您希望调用相同作业但配置细节略有不同的场景中非常有用。例如，您可能希望重用要在几个类似的CSV文件或类似的数据库环境上执行的相同作业。假设您有一个CSV数据存储，其定义如下：</datastore-catalog> <csv-datastore name="My csv file"> <filename>/path/to/file.c

2021-02-26 10:13:30 120

原创 DataCleaner---14.5 参数化job

14.5 参数化job如果要使作业的一部分可参数化/变量化，则可以这样做。目前，这是一项仅通过编辑支持的功能。分析.xml文件，因为DataCleaner图形用户界面在保存作业时不存储作业变量。在作业的源代码部分，可以添加变量，这些变量是将在整个作业中引用的键/值对。每个变量都可以有一个默认值，在未指定变量值的情况下将使用该值。下面是一个简单的例子：...<source> <data-context ref="my_datastore" /> <columns

2021-02-25 15:07:18 198

原创 DataCleaner---14.4 列出数据存储内容和可用组件

14.4 列出数据存储内容和可用组件命令行界面允许列出数据存储内容和可用组件。如果需要的话，其预期用途是帮助手工编辑分析文件。通过使用-list参数，您可以获得数据存储的元数据以及允许您手动编写分析文件的DataCleaner组件。如果您查看-usage命令的输出，那么列出数据存储的内容是非常简单的。下面是使用示例数据库“orderdb”的几个示例：> datacleaner-console.exe -list datastoresDatastores:-----------Country

2021-02-25 15:01:31 126

原创 DataCleaner---14.3 执行分析job

14.3 执行分析job下面是如何执行分析作业-我们将使用捆绑的示例作业"employees.analysis.xml":> datacleaner-console.exe -job examples/employees.analysis.xmlSUCCESS!...RESULT:Value distribution for column: REPORTSTOTop values: - 1102: 6 - 1143: 6 - 1088: 5Null count: 0Uniq

2021-02-25 14:56:27 155

原创 DataCleaner---14.2 使用场景

14.2 使用场景DataCleaner CLI的使用场景有：执行分析job列出已注册的数据存储列出数据存储中的架构列出架构中的数据表列出数据表中的列列出可用的分析仪、转换器或过滤器通过使用-usage参数调用可执行文件，可以了解这些场景是如何实现的：> datacleaner-console.exe -usage-conf (-configuration, --configuration-file) FILE : XML file describing the

2021-02-25 14:52:32 214

原创 DataCleaner---14.1 可执行程序

14.1 可执行程序根据您的DataCleaner发行版，您将拥有以下CLI可执行文件之一：datacleaner-console.exe , 这是仅限Windows的可执行文件。datacleaner.cmd , 这是在Windows中启动DataCleaner的脚本。datacleaner.sh , 这是在类Unix系统（如Linux和macos）中启动DataCleaner的脚本。如果您在JavaWebStart模式下运行DataCleaner，那么就没有命令行界面！点这儿返回Da

2021-02-25 14:45:54 240

原创 DataCleaner---13.1 在DataCleaner桌面中安装数据库驱动程序

13.1 在DataCleaner桌面中安装数据库驱动程序在DataCleaner desktop中安装数据库驱动程序是在应用程序本身运行时完成的。首先，找到顶部的more点击“Options ”菜单：然后选择’Database drivers’选项卡。在此选项卡中，您将看到当前安装的数据库驱动程序列表（熟知的）：如果单击’Add database driver’ 按钮，然后选择’Local JAR file(s)'选项，您将看到以下对话框：在此对话框中，选择驱动程序类名和包含数据库驱动程序

2021-02-25 10:37:17 421

原创 DataCleaner---12.4 选择性日志输出

12.4 选择性日志输出日志消息被打印到输出，通常是文件或控制台。在配置文件中，这是在< appender >标签中配置的。下面是一些您可以使用的可选附加器的示例。有关更多示例和文档，请参阅Log4j网站。登录PostgreSQL数据库：<appender name="jdbcAppender" class="org.apache.log4j.jdbc.JDBCAppender"> <param name="URL" value="jdbc:postgresql:db"

2021-02-25 10:29:59 105

原创 DataCleaner---12.3 修改日志级别

12.3 修改日志级别这些是DataCleaner和Log4j中可用的日志级别，按优先级排序（最高优先级优先）：errorwarninfodebugtrace通常不使用最底层的两个日志级别（调试和跟踪），除非开发人员必须调查意外情况。可以全局或分层方式修改日志记录级别：如果更改 < priority > 标签的value属性，则更改记录消息的全局阈值。如果更改 < logger > 标签的级别，则会更改与特定记录器层次结构相关的日志优先级日志消息。点

2021-02-25 10:26:31 97

原创 DataCleaner---12.2 默认日志配置

12.2 默认日志配置以下是XML格式的默认日志配置列表：<?xml version="1.0"encoding="UTF-8" ?><!DOCTYPE log4j:configuration SYSTEM"log4j.dtd"><log4j:configuration xmlns:log4j="http://jakarta.apache.org/log4j/"> <appender name="consoleAppender" class="org

2021-02-25 10:04:37 117

原创 DataCleaner---12.1 日志配置文件

12.1 日志配置文件在DataCleaner 中登录是基于Apache的开源日志框架Log4j。使用Log4j，您可以在非常详细的级别配置日志记录，同时保持集中式配置。在DataCleaner中配置日志记录有三种方法：默认日志记录配置。这不需要更改DataCleaner的标准分发版。日志文件将在log/datacleaner.log 文件中。指定您自己的XML日志配置。这要求您在datacleaner的根目录中放置一个名为log4j.XML的文件。指定您自己的属性文件日志配置。这要求您将一个名

2021-02-25 09:57:22 141

原创 DataCleaner---11.2 Source section

11.2 Source section作业文件格式的源部分可能是手动编辑或查看的最有趣的部分。下面是一个示例源代码部分：<source> <data-context ref="orderdb" /> <columns> <column path="PUBLIC.EMPLOYEES.EMPLOYEENUMBER" id="col_0" type="INTEGER" /> <column path="PUBLIC.EMPLOYEE

2021-02-23 14:43:39 120

原创 DataCleaner---11.1 xml模式

11.1 xml模式分析作业文件(Analysis job files)以与XML命名空间相关的XML格式编写”http://eobjects.org/analyzerbeans/job/1.0".对于喜欢使用支持XML模式的编辑器来编辑XML文件的精通XML的读者，您可以在此处找到此命名空间的XML模式：https://github.com/datacleaner/datacleaner/blob/master/engine/xml-config/src/main/resources/job.xsd.

2021-02-23 14:39:14 122

原创 DataCleaner---10.5 存储提供商

10.5 存储提供商存储提供程序用于存储执行分析作业时使用的临时数据。有两种类型的存储：大的（单个）值集合和“带注释的行”，即已采样或标记有用户感兴趣的特定类别的行。为了解释存储提供程序配置，让我们看一下默认元素：<storage-provider> <combined> <collections-storage> <berkeley-db/> </collections-storage> <row-annotati

2021-02-23 11:31:45 137

原创 DataCleaner---10.4 任务执行器

10.4 任务执行器任务执行器(Task runner)定义DataCleaner的引擎将如何执行分析作业的任务。通常不应编辑此标签内容。但是，这里有两个选项：<multithreaded-taskrunner max-threads="30" />定义具有30个可用线程的线程池的多线程任务运行程序。请注意，尽管30看起来是一个很高的数字，但是太小的线程池可能会导致问题，因为有些任务会安排额外的任务，因此当线程数非常低时，会有死锁的风险。<singlethreaded-taskr

2021-02-23 10:19:08 332 2

原创 DataCleaner---10.3 参考数据

10.3 参考数据参考数据参考数据项（字典、同义词目录和字符串模式）在配置文件中 < reference-data-catalog > 标签中定义。以下是一些例子：字典字典存储在reference data部分的 < dictionaries > 标签中。可以添加三种类型的词典。Datastore dictionaries<reference-data-catalog> <dictionaries> ... <datast

2021-02-23 10:13:47 171

原创 DataCleaner---10.2 数据存储

10.2 数据存储可以在元素标签 < datastore-catalog > 下的配置文件中配置数据存储。下面几节将详细介绍特定类型的数据存储。数据库（JDBC）连接下面是一些常见数据库类型的示例。提示！DataCleaner用户界面使得计算连接属性的url（连接字符串）和驱动程序类部分变得更加容易。如果你还不知道这些属性的话，这是一个很好的开始。MySQL<jdbc-datastore name="MySQL datastore"> <url>jdbc:m

2021-02-05 15:28:42 306

原创 DataCleaner---10.1 XML模式

10.1 XML模式配置文件(conf.xml格式)是属于XML命名空间"http://eobjects.org/analyzerbeans/configuration/1.0"的XML文件。对于喜欢使用支持XML模式的编辑器来编辑XML文件的读者，您可以在此处找到此命名空间的XML模式： https://github.com/datacleaner/DataCleaner/blob/master/engine/xml-config/src/main/resources/configuration.xs

2021-02-05 14:55:12 152

空空如也

空空如也