自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(57)
  • 收藏
  • 关注

原创 DataCleaner---16.1 在Pentaho数据集成中配置DataCleaner

16.1 在Pentaho数据集成中配置DataCleaner为了在Pentaho中使用DataCleaner插件,需要在本地安装DataCleaner。DataCleaner安装可以是社区版或专业版。可通过 “Tools” 设置配置。此外,在设置DataCleaner配置之后,可以从同一菜单启动DataCleaner,而不依赖Pentaho中的上下文。 点这儿返回DataCleaner文档主目录...

2021-02-26 17:08:38 324

原创 DataCleaner---15.5 Hadoop接口的限制

15.5 Hadoop接口的限制虽然DataCleaner的Hadoop接口允许在Hadoop平台上分布式运行DataCleaner作业,但有一些限制:数据存储支持目前,我们支持来自HDFS的一组有限的源数据存储。CSV文件是这里的主要来源。我们要求HDFS上的文件是UTF8编码的,并且只出现单行值。不可分配组件一些组件本质上是不可分配的。如果您的作业依赖于这些,DataCleaner将求助于在单Spark执行器上执行作业,这可能会对性能产生重大影响。没有Namenode的Hadoo

2021-02-26 15:51:15 123

原创 DataCleaner---15.4 在DataCleaner桌面端使用Hadoop

15.4 在DataCleaner桌面端使用Hadoop在DataCleaner 桌面端中,您可以处理位于HDFS上的CSV数据存储。配置Hadoop集群为了能够在Hadoop集群上从DataCleaner桌面端执行作业,您有许多配置选项,这些选项在选项对话框的Hadoop集群选项卡中进行管理。默认默认情况下,DataCleaner使用 HADOOP_CONF_DIR 和 YARN_CONF_DIR 环境变量来确定Hadoop/Yarn 配置文件(如core-site.xml and ya

2021-02-26 15:42:03 227

原创 DataCleaner---15.3 使用Spark启动DataCleaner作业

15.3 使用Spark启动DataCleaner作业转到Spark安装路径以运行作业。使用以下命令行模板:bin/spark-submit --class org.datacleaner.spark.Main --master yarn-cluster /path/to/DataCleaner-spark.jar/path/to/conf.xml /path/to/job_file.analysis.xml ([/path/to/custom_properties.properties])一种方

2021-02-26 14:50:46 295 1

原创 DataCleaner---15.2 设置Spark和DataCleaner环境

15.2 设置Spark和DataCleaner环境为了工作,Apache Spark需要环境变量HADOOP_CONF_DIR 或 YARN_CONF_DIR中的任何一个到包含Hadoop/Yarn配置文件(如core-site.xml , yarn-site.xml 等.)的目录中。将配置文件上传到HDFSHadoop上的DataCleaner需要一个常规的DataCleaner配置文件(conf.xml格式). 最好将其上传到hadoop分布式文件系统(HDFS)。我们建议将此文件放入路劲 /

2021-02-26 10:58:07 192

原创 DataCleaner---15.1 Hadoop部署概述

15.1 Hadoop部署概述Apache Hadoop是一个分布式系统,有许多关键组件,其中有几个很重要:YARN,通常被称为Hadoop的“操作系统”。YARN是一个管理实体,它为运行特定的作业或任务分配资源。HDFS,这是Hadoop分布式文件系统。这是数据所在的位置,也是共享可执行文件的位置,以便可以在集群中的许多节点上获取分布式进程。Namenode是集群中的一个专用节点,负责处理HDFS和将数据分发给其他节点,即所谓的datanode。此外,DataCleaner Hadoop是使

2021-02-26 10:25:59 221

原创 DataCleaner---14.6 动态重写配置元素

14.6 动态重写配置元素由于DataCleaner2.5版本,因此可以从命令行动态重写配置文件中的元素。这是一个功能,在您希望调用相同作业但配置细节略有不同的场景中非常有用。例如,您可能希望重用要在几个类似的CSV文件或类似的数据库环境上执行的相同作业。假设您有一个CSV数据存储,其定义如下:</datastore-catalog> <csv-datastore name="My csv file"> <filename>/path/to/file.c

2021-02-26 10:13:30 119

原创 DataCleaner---14.5 参数化job

14.5 参数化job如果要使作业的一部分可参数化/变量化,则可以这样做。目前,这是一项仅通过编辑支持的功能。分析.xml文件,因为DataCleaner图形用户界面在保存作业时不存储作业变量。在作业的源代码部分,可以添加变量,这些变量是将在整个作业中引用的键/值对。每个变量都可以有一个默认值,在未指定变量值的情况下将使用该值。下面是一个简单的例子:...<source> <data-context ref="my_datastore" /> <columns

2021-02-25 15:07:18 196

原创 DataCleaner---14.4 列出数据存储内容和可用组件

14.4 列出数据存储内容和可用组件命令行界面允许列出数据存储内容和可用组件。如果需要的话,其预期用途是帮助手工编辑分析文件。通过使用-list参数,您可以获得数据存储的元数据以及允许您手动编写分析文件的DataCleaner组件。如果您查看-usage命令的输出,那么列出数据存储的内容是非常简单的。下面是使用示例数据库“orderdb”的几个示例:> datacleaner-console.exe -list datastoresDatastores:-----------Country

2021-02-25 15:01:31 126

原创 DataCleaner---14.3 执行分析job

14.3 执行分析job下面是如何执行分析作业-我们将使用捆绑的示例作业"employees.analysis.xml":> datacleaner-console.exe -job examples/employees.analysis.xmlSUCCESS!...RESULT:Value distribution for column: REPORTSTOTop values: - 1102: 6 - 1143: 6 - 1088: 5Null count: 0Uniq

2021-02-25 14:56:27 154

原创 DataCleaner---14.2 使用场景

14.2 使用场景DataCleaner CLI的使用场景有:执行分析job列出已注册的数据存储列出数据存储中的架构列出架构中的数据表列出数据表中的列列出可用的分析仪、转换器或过滤器通过使用-usage参数调用可执行文件,可以了解这些场景是如何实现的:> datacleaner-console.exe -usage-conf (-configuration, --configuration-file) FILE : XML file describing the

2021-02-25 14:52:32 214

原创 DataCleaner---14.1 可执行程序

14.1 可执行程序根据您的DataCleaner发行版,您将拥有以下CLI可执行文件之一:datacleaner-console.exe , 这是仅限Windows的可执行文件。datacleaner.cmd , 这是在Windows中启动DataCleaner的脚本。datacleaner.sh , 这是在类Unix系统(如Linux和macos)中启动DataCleaner的脚本。如果您在JavaWebStart模式下运行DataCleaner,那么就没有命令行界面! 点这儿返回Da

2021-02-25 14:45:54 240

原创 DataCleaner---13.1 在DataCleaner桌面中安装数据库驱动程序

13.1 在DataCleaner桌面中安装数据库驱动程序在DataCleaner desktop中安装数据库驱动程序是在应用程序本身运行时完成的。首先,找到顶部的more点击“Options ”菜单:然后选择’Database drivers’选项卡。在此选项卡中,您将看到当前安装的数据库驱动程序列表(熟知的):如果单击’Add database driver’ 按钮,然后选择’Local JAR file(s)'选项,您将看到以下对话框:在此对话框中,选择驱动程序类名和包含数据库驱动程序

2021-02-25 10:37:17 421

原创 DataCleaner---12.4 选择性日志输出

12.4 选择性日志输出日志消息被打印到输出,通常是文件或控制台。在配置文件中,这是在< appender >标签中配置的。下面是一些您可以使用的可选附加器的示例。有关更多示例和文档,请参阅Log4j网站。登录PostgreSQL数据库:<appender name="jdbcAppender" class="org.apache.log4j.jdbc.JDBCAppender"> <param name="URL" value="jdbc:postgresql:db"

2021-02-25 10:29:59 105

原创 DataCleaner---12.3 修改日志级别

12.3 修改日志级别这些是DataCleaner和Log4j中可用的日志级别,按优先级排序(最高优先级优先):errorwarninfodebugtrace通常不使用最底层的两个日志级别(调试和跟踪),除非开发人员必须调查意外情况。可以全局或分层方式修改日志记录级别:如果更改 < priority > 标签的value属性,则更改记录消息的全局阈值。如果更改 < logger > 标签的级别,则会更改与特定记录器层次结构相关的日志优先级日志消息。 点

2021-02-25 10:26:31 96

原创 DataCleaner---12.2 默认日志配置

12.2 默认日志配置以下是XML格式的默认日志配置列表:<?xml version="1.0"encoding="UTF-8" ?><!DOCTYPE log4j:configuration SYSTEM"log4j.dtd"><log4j:configuration xmlns:log4j="http://jakarta.apache.org/log4j/"> <appender name="consoleAppender" class="org

2021-02-25 10:04:37 117

原创 DataCleaner---12.1 日志配置文件

12.1 日志配置文件在DataCleaner 中登录是基于Apache的开源日志框架Log4j。使用Log4j,您可以在非常详细的级别配置日志记录,同时保持集中式配置。在DataCleaner中配置日志记录有三种方法:默认日志记录配置。这不需要更改DataCleaner的标准分发版。日志文件将在log/datacleaner.log 文件中。指定您自己的XML日志配置。这要求您在datacleaner的根目录中放置一个名为log4j.XML的文件。指定您自己的属性文件日志配置。这要求您将一个名

2021-02-25 09:57:22 141

原创 DataCleaner---11.2 Source section

11.2 Source section作业文件格式的源部分可能是手动编辑或查看的最有趣的部分。下面是一个示例源代码部分:<source> <data-context ref="orderdb" /> <columns> <column path="PUBLIC.EMPLOYEES.EMPLOYEENUMBER" id="col_0" type="INTEGER" /> <column path="PUBLIC.EMPLOYEE

2021-02-23 14:43:39 119

原创 DataCleaner---11.1 xml模式

11.1 xml模式分析作业文件(Analysis job files)以与XML命名空间相关的XML格式编写”http://eobjects.org/analyzerbeans/job/1.0".对于喜欢使用支持XML模式的编辑器来编辑XML文件的精通XML的读者,您可以在此处找到此命名空间的XML模式:https://github.com/datacleaner/datacleaner/blob/master/engine/xml-config/src/main/resources/job.xsd.

2021-02-23 14:39:14 122

原创 DataCleaner---10.5 存储提供商

10.5 存储提供商存储提供程序用于存储执行分析作业时使用的临时数据。有两种类型的存储:大的(单个)值集合和“带注释的行”,即已采样或标记有用户感兴趣的特定类别的行。为了解释存储提供程序配置,让我们看一下默认元素:<storage-provider> <combined> <collections-storage> <berkeley-db/> </collections-storage> <row-annotati

2021-02-23 11:31:45 137

原创 DataCleaner---10.4 任务执行器

10.4 任务执行器任务执行器(Task runner)定义DataCleaner的引擎将如何执行分析作业的任务。通常不应编辑此标签内容。但是,这里有两个选项:<multithreaded-taskrunner max-threads="30" />定义具有30个可用线程的线程池的多线程任务运行程序。请注意,尽管30看起来是一个很高的数字,但是太小的线程池可能会导致问题,因为有些任务会安排额外的任务,因此当线程数非常低时,会有死锁的风险。<singlethreaded-taskr

2021-02-23 10:19:08 330 2

原创 DataCleaner---10.3 参考数据

10.3 参考数据参考数据参考数据项(字典、同义词目录和字符串模式)在配置文件中 < reference-data-catalog > 标签中定义。以下是一些例子:字典字典存储在reference data部分的 < dictionaries > 标签中。可以添加三种类型的词典。Datastore dictionaries<reference-data-catalog> <dictionaries> ... <datast

2021-02-23 10:13:47 171

原创 DataCleaner---10.2 数据存储

10.2 数据存储可以在元素标签 < datastore-catalog > 下的配置文件中配置数据存储。下面几节将详细介绍特定类型的数据存储。数据库(JDBC)连接下面是一些常见数据库类型的示例。提示!DataCleaner用户界面使得计算连接属性的url(连接字符串)和驱动程序类部分变得更加容易。如果你还不知道这些属性的话,这是一个很好的开始。MySQL<jdbc-datastore name="MySQL datastore"> <url>jdbc:m

2021-02-05 15:28:42 306

原创 DataCleaner---10.1 XML模式

10.1 XML模式配置文件(conf.xml格式)是属于XML命名空间"http://eobjects.org/analyzerbeans/configuration/1.0"的XML文件。对于喜欢使用支持XML模式的编辑器来编辑XML文件的读者,您可以在此处找到此命名空间的XML模式: https://github.com/datacleaner/DataCleaner/blob/master/engine/xml-config/src/main/resources/configuration.xs

2021-02-05 14:55:12 151

原创 DataCleaner---9 字符串模式

9 字符串模式字符串模式为它们可能符合或不符合的字符串值定义一个“模板”。DataCleaner目前支持两种流行的字符串格式:正则表达式是计算机科学中流行的一种通用字符串模式匹配语言。正则表达式确实需要一点时间来学习,但是一旦被利用,它就非常强大。解释正则表达式的语法绝对超出了DataCleaner文档的范围。如果您正在寻找有关Java正则表达式的资源,我们建议您学习Java正则表达式课程。简单的字符串模式,使用与模式工具分析器相同的语法。例如像这样的模式aaaa@aaaa.aaa,可以用来匹配

2021-02-05 10:18:17 190

原创 DataCleaner---8.2 数据存储同义词目录

8.2 数据存储同义词目录如果同义词位于数据库或其他类型的数据存储中,则还可以基于此创建同义词目录。数据存储同义词目录允许您指定一个主术语列和多个同义词列。同义词目录将通过搜索/查询数据存储查找同义词匹配项。 点这儿返回DataCleaner文档主目录...

2021-02-05 10:12:29 153

原创 DataCleaner---8.1 文本文件同义词目录

8.1 文本文件同义词目录文本文件同义词目录是执行同义词替换的最简单也是最快的方法。只需创建一个文本文件,其中包含格式为的内容,其中主术语后面是逗号分隔的同义词列表,如下所示:M,Male,Man,Guy,BoyF,Female,Woman,Girl在上面的例子中,大多数典型的性别标记将被替换为“M”或“F” 点这儿返回DataCleaner文档主目录...

2021-02-05 10:09:16 160

原创 DataCleaner---7 字典

7 字典字典是参考数据列表,用于对照某些黑名单或白名单对值进行验证或分类。字典通常是可枚举的和有限的,而字符串模式是动态的,每次都进行计算。词典示例如下:产品类型字典,如“珠宝”、“男装”、“运动装”等。性别符号的字典,比如“M”、“F”或者“未知”。年龄组名称词典(如婴儿、儿童、年轻人、成熟人、老年人)两本男性和女性名字词典(以确定人的性别) 点这儿返回DataCleaner文档主目录...

2021-02-04 16:29:02 205

原创 DataCleaner---6.5 更新表格

6.5 更新表格Update table 编写器的工作方式与 ’ Insert into table ’ 编写器类似,只是它发出Update语句而不是Insert语句。这显然意味着它有一个附加属性,用于指定更新的条件(WHERE部分)。 点这儿返回DataCleaner文档主目录...

2021-02-04 14:48:11 140

原创 DataCleaner---6.4 插入表格

6.4 插入表格使用此编写器,您可以将数据插入现有数据存储的表中。如果您已经准备好了一个表布局,或者您想附加到一个数据库表中,那么这个写入选项就是适合您的。(可选)您可以用 “Insert into table”组件在插入数据之前删除表内容。这将删除表中的所有现有记录,对初始负载情况非常有用。当前目标表可以来自以下任何数据存储类型:CSV文件。在这种情况下,数据将附加到文件中。Excel电子表格。在这种情况下,数据将附加到文件中。关系数据库。在这种情况下,数据将使用INSERT语句插入到表中

2021-02-04 14:45:23 142

原创 DataCleaner---6.3 创建临时表

6.3 创建临时表将数据写入DataCleaner管理的嵌入式关系数据库。此选项主要用于暂存数据以供进一步分析。使用此功能的优点是它保留了列类型信息,可以处理大量数据,并且可以将多个数据集写入同一个数据存储。缺点是数据不容易被第三方应用程序读取(除非再次导出)。 点这儿返回DataCleaner文档主目录...

2021-02-04 14:37:39 135

原创 DataCleaner---6.2 创建Excel表格

6.2 创建Excel表格将数据集写入Excel电子表格。这种方法的一个优点是,一个文件可以包含多个工作表,并且在microsoft excel中很容易导航。缺点是对于非常大的数据集,它的性能较差。点这儿返回DataCleaner文档主目录...

2021-02-04 14:35:08 125

原创 DataCleaner---6.1 创建CSV文件

5.16 创建CSV文件将数据写入以逗号分隔的值文件。CSV文件是与其他系统进行互操作以及将数据加载到数据库中的常用选择。点这儿返回DataCleaner文档主目录

2021-02-04 14:32:04 173

原创 DataCleaner---5.15 机器学习

5.15 机器学习DataCleaner提供了一组用于训练或测试机器学习模型的分析器。其思想是,可以使用记录来构建 (“train”) 一个数学模型,该模型基于记录的其他属性来描述任何给定属性/列的值。例如,您可以根据给定价格的历史数据和价格的相关因素(如大小、位置、条件和时间)对房价进行分类或预测。支持两种用例:分类,即确定一类记录的行为。例如,您可能希望根据客户的属性对最适合特定客户的产品进行分类。回归,它决定了一个数字尺度上的连续值。例如,你可能想根据房子的特点来预测房子的价格。Dat

2021-02-04 10:27:37 272

原创 DataCleaner---5.14 工作日分布

5.14 工作日分布工作日分布(Weekday distribution)为日期列提供了频率分析,您可以很容易地确定日期字段表示哪些工作日。

2021-02-03 15:03:23 151

原创 DataCleaner---5.13 值匹配

5.13 值匹配值匹配器(Value matcher)的工作原理与值分布非常相似,只是它需要一个期望值列表,其他所有内容都放入一组 ‘unexpected values’ 中。这种值差异意味着两件事:你得到了一个内置的验证机制。您可能只希望 “gender” 列的值为“M”和“F”,出现其他所有值在某种意义上都是无效的。这种划分使得监视数据质量监视web应用程序中的特定值变得更容易。这个分析器对于大型数据集的伸缩性更好,因为分组是确定性的,因此可以在批处理运行中进行准备。...

2021-02-03 15:01:09 188

原创 DataCleaner---5.12 值分布

5.12 值分布值分布(Value distribution 通常也称为“频率分析”)允许您识别特定列的所有值。此外,您还可以调查哪些行属于特定值。以下是值分布分析器的配置属性:属性(Property)说明(Description)组列(Group column)允许您定义用于对结果进行分组的列。使用组列,可以将已标识的值分布划分为单独的buckets/groups。想象一下,例如,你想检查邮政编码和城市名称是否对应,或者如果你只是想分割你的值分布,例如国家或性别或。。。记

2021-02-03 14:55:37 259

原创 DataCleaner---5.11 主键检查

5.11 主键检查主键检查分析器(Unique key check)提供了一种简单的方法来验证keys/IDs是否唯一。主键检查分析器的属性包括:属性(Property)说明(Description)列(Column)选取此分析器应执行唯一性的列的检查。缓冲区大小(Buffer size)缓冲区表示用于排序和比较key的内部资源。拥有一个大的缓冲区可以使分析器运行得更快,占用更少的磁盘资源,但这是以占用内存为代价的。如果作业尚未占用大量内存,建议将缓冲区大小增加到1M。

2021-02-03 11:03:33 234

原创 DataCleaner---5.10 字符串分析器

5.10 字符串分析器字符串分析器(String analyzer)为字符串列类型提供通用分析度量。字符串分析器特别关注的是单词、字符、特殊符号、音调符号和其他度量的数量,这些对于理解数据中出现的字符串值的类型至关重要。...

2021-02-03 10:46:08 362

原创 DataCleaner---5.9 参照完整性

5.9 参照完整性使用参照完整性(Referential integrity)分析器,您可以检查记录之间的关键关系是否完好无损。分析器将处理单个表内、多个表之间甚至不同数据存储的表之间的关系。以下是参照完整性配置面板的屏幕截图:对关系中具有外键的表应用分析器,并将其配置为对包含所有有效键的表进行检查。属性(Property)说明(Description)缓存查找(Cache lookups)分析器是否应该通过缓存以前的查找结果来加速参照完整性检查。性能如何最终取决于要检查的键

2021-02-03 10:42:52 291

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除