自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(89)
  • 收藏
  • 关注

原创 Mirth Connect 源码用eclipse启动

准备工作Mirth Connect源码,GitHub源码地址:(网络较慢,难受)https://github.com/nextgenhealthcare/connect/tree/3.12.xGitee码云上的源码地址:(速度还可以)https://gitee.com/dingdongnigedingdong/Mirthconnect/tree/3.12.x/eclipse2019版1.拉取源码自己用git拉取源码到自己的电脑即可;拉取时注意选择最新的3.12的版本;2.导入ecli

2022-01-10 15:02:23 680

原创 DataCleaner---21 嵌入DataCleaner

21 嵌入DataCleaner可以将DataCleaner嵌入到其他Java应用程序中。这允许一种简单的方法来添加数据质量分析(DQA)和数据分析功能,作为对正在构建的应用程序的补充。嵌入DataCleaner最简单的方法就是执行DataCleaner的主可执行文件所做的操作—用默认参数实例化引导类:BootstrapOptions bootstrapOptions = new DefaultBootstrapOptions(args);Bootstrap bootstrap = new Boot

2021-03-02 17:29:47 418

原创 DataCleaner---20.4 组件图标

20.4 组件图标如果您想为您的组件添加一个自定义图标(例如,一个转换器或分析器),您需要将图标放置为一个PNG图像,其名称与组件的完全分类类名相同。例如:如果组件类名为"com.company.ext.MyAnalyzer",则此组件的图标应位于 “/com/company/ext/MyAnalyzer.png” 在扩展JAR文件中。类似地,如果绑定自己的ComponentCategory实现(定义DataCleaner中的菜单组),则可以通过添加一个PNG文件来定义这些图标,该文件具有与Compo

2021-03-02 17:24:37 143

原创 DataCleaner---20.3 扩展元数据XML

20.3 扩展元数据XML为了改善体验,您可以选择在一个XML文件中包含关于扩展名的元数据metadata ,并将其捆绑在JAR文件中。扩展元数据文件的名称必须是 datacleaner-extension.xml 并放置在JAR文件的根目录中。以下是文件示例:<extension xmlns="http://eobjects.org/datacleaner/extension/1.0"> <name>My extension</name> <pa

2021-03-02 17:21:41 148

原创 DataCleaner---20.2 单个jar文件

20.2 单个jar文件扩展名必须由单个JAR文件组成。如果您的依赖项不是DataCleaner发行版提供的库,那么您需要将这些依赖项打包到您自己的JAR文件中。如果您在构建中使用Maven,Maven程序集插件可以使用POM中的以下代码片段轻松提供此功能:<build> <plugins> <plugin> <groupId>org.apache.maven.plugins</groupId> <artifac

2021-03-02 17:17:54 125

原创 DataCleaner---20.1 带注解组件

20.1 组件上的注解DataCleaner中扩展发现背后的主要原则是带注解的类。大部分组件都应具有以下注解之一:@java.inject.Named – 对于实现Transformer、Filter或Analyzer接口的类。@org.datacleaner.api.RendererBean – 用于实现 Renderer 接口的类。有关用法的详细信息,请参阅接口的javadoc文档。点这儿返回DataCleaner文档主目录...

2021-03-02 17:15:06 112

原创 DataCleaner---19.2 Building DataCleaner

19.2 Building DataCleaner从GitHub获取DataCleaner的源代码:> git clone https://github.com/datacleaner/DataCleaner.git DataCleanerBuild the projects:> cd DataCleaner> mvn clean installRun DataCleaner> cd desktop/ui/target> java -jar DataClea

2021-03-02 17:06:45 165

原创 DataCleaner---19.1 扩展开发教程

19.1 扩展开发教程对于那些从事开发扩展的人来说,有很多有用的资源。(插件/附加组件)到DataCleaner。为了帮助你,这里有一个有用的拓展开发。如果您认为此开发还不够,请告知我们:教程:开发转换器transformer教程:开发分析器analyzer教程:实现自定义数据存储Javadoc: DataCleanerJavadoc: MetaModel===================================================================

2021-03-02 15:03:07 460

原创 DataCleaner---18.5 第四步:结果

18.5 第四步:结果很好,现在我们有了一个AnalysisResultFuture,我们已经确定它是成功的。我们能用它做什么?job的每个分析器的结果都可以通过AnalysisResultFuture 实现的 ‘AnalysisResult’ 接口获得。请注意,analyzer结果类型彼此非常不同。例如,‘Insert into table’ 分析器生成 WriteDataResult ,而 ‘Pattern finder’ 生成 PatternFinderResult。让我们看看如何从中提取信息:

2021-03-01 16:14:46 190

原创 DataCleaner---18.4 第三步:执行

18.4 第三步:执行执行作业是最简单的步骤之一,但显然除了 ‘vanilla’ 场景之外,还有其他可用的选项。运行作业的简单场景是使用普通AnalysisRunnerImpl类,如下所示:AnalysisRunner runner = new AnalysisRunnerImpl(configuration);AnalysisResultFuture resultFuture = runner.run(analysisJob);这将返回AnalysisResultFuture,在大多数情

2021-03-01 15:59:42 156

原创 DataCleaner---18.3 第二步:作业

18.3 第二步:工作与配置一样,我们可以选择从文件加载要运行的作业,或者以编程方式构建它。让我们从简单地从文件加载作业开始。我们需要使用JaxbJobReader类:InputStream inputStream = new FileInputStream("my_job.analysis.xml");JaxbJobReader jobReader = new JaxbJobReader(configuration);AnalysisJob analysisJob = jobReader.re

2021-03-01 15:07:36 197

原创 DataCleaner---18.2 第一步:配置

18.2 第一步:配置DataCleaner的配置在类DataCleanerConfiguration(以前是“AnalyzerBeansConfiguration”类)中表示。您需要DataCleanerConfiguration作为大多数后续操作的先决条件。获取DataCleanerConfiguration实例最简单、可能也是最方便的方法是从一个文件中加载(通常名为conf.xml格式(有关此文件格式的详细信息,请参阅配置文件一章)。要加载文件,请使用JaxbConfigurationReader

2021-03-01 14:31:40 370

原创 DataCleaner---18.1 步骤和选项概述

18.1 步骤和选项概述这个故事有两个变体-你想要什么样的配置选项?您希望以编程方式构建作业,还是将其作为一个.analysis.xml文件放在磁盘上的某个位置?您将对结果进行任何处理,还是作业本身包含所有必要的逻辑。下图描述了各种步骤和选项。在以下部分中,我们将逐一介绍图中的4个步骤/列: 点这儿返回DataCleaner文档主目录...

2021-03-01 14:25:51 252

原创 DataCleaner---17.2 处理框架

17.2 处理框架DataCleaner处理数据的方式与大多数类似(ETL-like)工具略有不同。首先是应用多线程的方式,其次是DataCleaner有时可以在执行时优化图形的方式。多线程(Multithreading) :DataCleaner中的多线程策略使该工具具有最小的阻塞和缓冲量以及最大的并行性和潜在的分布性。大多数类似ETL的工具都采用线程策略,其中作业中的每个组件都有自己的线程管理以及输入和输出缓冲区。在DataCleaner中,线程管理是这样做的:每个记录都是并行处理的—每个工作单元在

2021-03-01 11:05:35 280

原创 DataCleaner---17.1 数据存取

17.1 数据存取在DataCleaner中,所有数据源都称为“数据存储”。这个概念既包括本地读取/解析的源,也包括 ‘connected to’ 的源,例如数据库和应用程序。一些数据存储也可以写入,例如关系数据库。DataCleaner使用 Apache MetaModel framework 进行数据访问。从DataCleaner的角度来看,Apache元模型提供了许多特性:与不同数据存储交互的常用方式。一种编程查询语法,它抽象出特定于数据库的SQL方言,也可用于非面向SQL的数据存储(文件等

2021-03-01 10:02:29 272

原创 DataCleaner---16.3 在Pentaho数据集成中运行DataCleaner作业

16.3 在Pentaho数据集成中运行DataCleaner作业Pentaho数据集成作业条目。如果您想将DataCleaner调度并集成到一个环境中,在这个环境中您可以迭代文件夹中的文件等,那么您可以使用Pentaho Data Integration(PDI),它是一个包含调度器的开源ETL工具。构造一个PDI “job”(即不是“transformation”)并添加DataCleaner作业条目。可在 ‘Utility’ 子菜单中找到该条目。配置对话框如下所示:最棘手的部分是填写可执行文件

2021-03-01 09:42:45 225

原创 DataCleaner---16.2 启动DataCleaner以分析Pentaho数据集成步骤

16.2 启动DataCleaner以分析Pentaho数据集成步骤在Pentaho数据集成中,您可以通过右键单击转换的任何步骤来启动DataCleaner。这将启动DataCleaner,并预加载转换数据,准备进行分析。此功能要求安装用于Pentaho数据集成的数据分析插件。关于这一点的说明和进一步的文档保存在Pentaho的wiki页面:使用DataCleaner进行catter数据分析 点这儿返回DataCleaner文档主目录...

2021-03-01 09:36:55 263

原创 DataCleaner---16.1 在Pentaho数据集成中配置DataCleaner

16.1 在Pentaho数据集成中配置DataCleaner为了在Pentaho中使用DataCleaner插件,需要在本地安装DataCleaner。DataCleaner安装可以是社区版或专业版。可通过 “Tools” 设置配置。此外,在设置DataCleaner配置之后,可以从同一菜单启动DataCleaner,而不依赖Pentaho中的上下文。 点这儿返回DataCleaner文档主目录...

2021-02-26 17:08:38 293

原创 DataCleaner---15.5 Hadoop接口的限制

15.5 Hadoop接口的限制虽然DataCleaner的Hadoop接口允许在Hadoop平台上分布式运行DataCleaner作业,但有一些限制:数据存储支持目前,我们支持来自HDFS的一组有限的源数据存储。CSV文件是这里的主要来源。我们要求HDFS上的文件是UTF8编码的,并且只出现单行值。不可分配组件一些组件本质上是不可分配的。如果您的作业依赖于这些,DataCleaner将求助于在单Spark执行器上执行作业,这可能会对性能产生重大影响。没有Namenode的Hadoo

2021-02-26 15:51:15 110

原创 DataCleaner---15.4 在DataCleaner桌面端使用Hadoop

15.4 在DataCleaner桌面端使用Hadoop在DataCleaner 桌面端中,您可以处理位于HDFS上的CSV数据存储。配置Hadoop集群为了能够在Hadoop集群上从DataCleaner桌面端执行作业,您有许多配置选项,这些选项在选项对话框的Hadoop集群选项卡中进行管理。默认默认情况下,DataCleaner使用 HADOOP_CONF_DIR 和 YARN_CONF_DIR 环境变量来确定Hadoop/Yarn 配置文件(如core-site.xml and ya

2021-02-26 15:42:03 200

原创 DataCleaner---15.3 使用Spark启动DataCleaner作业

15.3 使用Spark启动DataCleaner作业转到Spark安装路径以运行作业。使用以下命令行模板:bin/spark-submit --class org.datacleaner.spark.Main --master yarn-cluster /path/to/DataCleaner-spark.jar/path/to/conf.xml /path/to/job_file.analysis.xml ([/path/to/custom_properties.properties])一种方

2021-02-26 14:50:46 253 1

原创 DataCleaner---15.2 设置Spark和DataCleaner环境

15.2 设置Spark和DataCleaner环境为了工作,Apache Spark需要环境变量HADOOP_CONF_DIR 或 YARN_CONF_DIR中的任何一个到包含Hadoop/Yarn配置文件(如core-site.xml , yarn-site.xml 等.)的目录中。将配置文件上传到HDFSHadoop上的DataCleaner需要一个常规的DataCleaner配置文件(conf.xml格式). 最好将其上传到hadoop分布式文件系统(HDFS)。我们建议将此文件放入路劲 /

2021-02-26 10:58:07 179

原创 DataCleaner---15.1 Hadoop部署概述

15.1 Hadoop部署概述Apache Hadoop是一个分布式系统,有许多关键组件,其中有几个很重要:YARN,通常被称为Hadoop的“操作系统”。YARN是一个管理实体,它为运行特定的作业或任务分配资源。HDFS,这是Hadoop分布式文件系统。这是数据所在的位置,也是共享可执行文件的位置,以便可以在集群中的许多节点上获取分布式进程。Namenode是集群中的一个专用节点,负责处理HDFS和将数据分发给其他节点,即所谓的datanode。此外,DataCleaner Hadoop是使

2021-02-26 10:25:59 187

原创 DataCleaner---14.6 动态重写配置元素

14.6 动态重写配置元素由于DataCleaner2.5版本,因此可以从命令行动态重写配置文件中的元素。这是一个功能,在您希望调用相同作业但配置细节略有不同的场景中非常有用。例如,您可能希望重用要在几个类似的CSV文件或类似的数据库环境上执行的相同作业。假设您有一个CSV数据存储,其定义如下:</datastore-catalog> <csv-datastore name="My csv file"> <filename>/path/to/file.c

2021-02-26 10:13:30 105

原创 DataCleaner---14.5 参数化job

14.5 参数化job如果要使作业的一部分可参数化/变量化,则可以这样做。目前,这是一项仅通过编辑支持的功能。分析.xml文件,因为DataCleaner图形用户界面在保存作业时不存储作业变量。在作业的源代码部分,可以添加变量,这些变量是将在整个作业中引用的键/值对。每个变量都可以有一个默认值,在未指定变量值的情况下将使用该值。下面是一个简单的例子:...<source> <data-context ref="my_datastore" /> <columns

2021-02-25 15:07:18 171

原创 DataCleaner---14.4 列出数据存储内容和可用组件

14.4 列出数据存储内容和可用组件命令行界面允许列出数据存储内容和可用组件。如果需要的话,其预期用途是帮助手工编辑分析文件。通过使用-list参数,您可以获得数据存储的元数据以及允许您手动编写分析文件的DataCleaner组件。如果您查看-usage命令的输出,那么列出数据存储的内容是非常简单的。下面是使用示例数据库“orderdb”的几个示例:> datacleaner-console.exe -list datastoresDatastores:-----------Country

2021-02-25 15:01:31 121

原创 DataCleaner---14.3 执行分析job

14.3 执行分析job下面是如何执行分析作业-我们将使用捆绑的示例作业"employees.analysis.xml":> datacleaner-console.exe -job examples/employees.analysis.xmlSUCCESS!...RESULT:Value distribution for column: REPORTSTOTop values: - 1102: 6 - 1143: 6 - 1088: 5Null count: 0Uniq

2021-02-25 14:56:27 137

原创 DataCleaner---14.2 使用场景

14.2 使用场景DataCleaner CLI的使用场景有:执行分析job列出已注册的数据存储列出数据存储中的架构列出架构中的数据表列出数据表中的列列出可用的分析仪、转换器或过滤器通过使用-usage参数调用可执行文件,可以了解这些场景是如何实现的:> datacleaner-console.exe -usage-conf (-configuration, --configuration-file) FILE : XML file describing the

2021-02-25 14:52:32 188

原创 DataCleaner---14.1 可执行程序

14.1 可执行程序根据您的DataCleaner发行版,您将拥有以下CLI可执行文件之一:datacleaner-console.exe , 这是仅限Windows的可执行文件。datacleaner.cmd , 这是在Windows中启动DataCleaner的脚本。datacleaner.sh , 这是在类Unix系统(如Linux和macos)中启动DataCleaner的脚本。如果您在JavaWebStart模式下运行DataCleaner,那么就没有命令行界面! 点这儿返回Da

2021-02-25 14:45:54 206

原创 DataCleaner---13.1 在DataCleaner桌面中安装数据库驱动程序

13.1 在DataCleaner桌面中安装数据库驱动程序在DataCleaner desktop中安装数据库驱动程序是在应用程序本身运行时完成的。首先,找到顶部的more点击“Options ”菜单:然后选择’Database drivers’选项卡。在此选项卡中,您将看到当前安装的数据库驱动程序列表(熟知的):如果单击’Add database driver’ 按钮,然后选择’Local JAR file(s)'选项,您将看到以下对话框:在此对话框中,选择驱动程序类名和包含数据库驱动程序

2021-02-25 10:37:17 384

原创 DataCleaner---12.4 选择性日志输出

12.4 选择性日志输出日志消息被打印到输出,通常是文件或控制台。在配置文件中,这是在< appender >标签中配置的。下面是一些您可以使用的可选附加器的示例。有关更多示例和文档,请参阅Log4j网站。登录PostgreSQL数据库:<appender name="jdbcAppender" class="org.apache.log4j.jdbc.JDBCAppender"> <param name="URL" value="jdbc:postgresql:db"

2021-02-25 10:29:59 96

原创 DataCleaner---12.3 修改日志级别

12.3 修改日志级别这些是DataCleaner和Log4j中可用的日志级别,按优先级排序(最高优先级优先):errorwarninfodebugtrace通常不使用最底层的两个日志级别(调试和跟踪),除非开发人员必须调查意外情况。可以全局或分层方式修改日志记录级别:如果更改 < priority > 标签的value属性,则更改记录消息的全局阈值。如果更改 < logger > 标签的级别,则会更改与特定记录器层次结构相关的日志优先级日志消息。 点

2021-02-25 10:26:31 83

原创 DataCleaner---12.2 默认日志配置

12.2 默认日志配置以下是XML格式的默认日志配置列表:<?xml version="1.0"encoding="UTF-8" ?><!DOCTYPE log4j:configuration SYSTEM"log4j.dtd"><log4j:configuration xmlns:log4j="http://jakarta.apache.org/log4j/"> <appender name="consoleAppender" class="org

2021-02-25 10:04:37 86

原创 DataCleaner---12.1 日志配置文件

12.1 日志配置文件在DataCleaner 中登录是基于Apache的开源日志框架Log4j。使用Log4j,您可以在非常详细的级别配置日志记录,同时保持集中式配置。在DataCleaner中配置日志记录有三种方法:默认日志记录配置。这不需要更改DataCleaner的标准分发版。日志文件将在log/datacleaner.log 文件中。指定您自己的XML日志配置。这要求您在datacleaner的根目录中放置一个名为log4j.XML的文件。指定您自己的属性文件日志配置。这要求您将一个名

2021-02-25 09:57:22 129

原创 DataCleaner---11.2 Source section

11.2 Source section作业文件格式的源部分可能是手动编辑或查看的最有趣的部分。下面是一个示例源代码部分:<source> <data-context ref="orderdb" /> <columns> <column path="PUBLIC.EMPLOYEES.EMPLOYEENUMBER" id="col_0" type="INTEGER" /> <column path="PUBLIC.EMPLOYEE

2021-02-23 14:43:39 110

原创 DataCleaner---11.1 xml模式

11.1 xml模式分析作业文件(Analysis job files)以与XML命名空间相关的XML格式编写”http://eobjects.org/analyzerbeans/job/1.0".对于喜欢使用支持XML模式的编辑器来编辑XML文件的精通XML的读者,您可以在此处找到此命名空间的XML模式:https://github.com/datacleaner/datacleaner/blob/master/engine/xml-config/src/main/resources/job.xsd.

2021-02-23 14:39:14 112

原创 DataCleaner---10.5 存储提供商

10.5 存储提供商存储提供程序用于存储执行分析作业时使用的临时数据。有两种类型的存储:大的(单个)值集合和“带注释的行”,即已采样或标记有用户感兴趣的特定类别的行。为了解释存储提供程序配置,让我们看一下默认元素:<storage-provider> <combined> <collections-storage> <berkeley-db/> </collections-storage> <row-annotati

2021-02-23 11:31:45 128

原创 DataCleaner---10.4 任务执行器

10.4 任务执行器任务执行器(Task runner)定义DataCleaner的引擎将如何执行分析作业的任务。通常不应编辑此标签内容。但是,这里有两个选项:<multithreaded-taskrunner max-threads="30" />定义具有30个可用线程的线程池的多线程任务运行程序。请注意,尽管30看起来是一个很高的数字,但是太小的线程池可能会导致问题,因为有些任务会安排额外的任务,因此当线程数非常低时,会有死锁的风险。<singlethreaded-taskr

2021-02-23 10:19:08 246 2

原创 DataCleaner---10.3 参考数据

10.3 参考数据参考数据参考数据项(字典、同义词目录和字符串模式)在配置文件中 < reference-data-catalog > 标签中定义。以下是一些例子:字典字典存储在reference data部分的 < dictionaries > 标签中。可以添加三种类型的词典。Datastore dictionaries<reference-data-catalog> <dictionaries> ... <datast

2021-02-23 10:13:47 159

原创 DataCleaner---10.2 数据存储

10.2 数据存储可以在元素标签 < datastore-catalog > 下的配置文件中配置数据存储。下面几节将详细介绍特定类型的数据存储。数据库(JDBC)连接下面是一些常见数据库类型的示例。提示!DataCleaner用户界面使得计算连接属性的url(连接字符串)和驱动程序类部分变得更加容易。如果你还不知道这些属性的话,这是一个很好的开始。MySQL<jdbc-datastore name="MySQL datastore"> <url>jdbc:m

2021-02-05 15:28:42 283

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除