自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 DataCleaner入门--2.8 将清洗后的数据写入文件

将清洗后的数据写入文件尽管DataCleaner的关注焦点是分析数据,但在这种分析过程中,您经常会发现自己通过在数据上使用转换器和过滤器来改进数据。在这种情况下,显然您需要导出经过改进/清理的数据,以便在分析以外的其他情况下使用这些数据。有关写入清除数据的更多信息,请参阅 Writer 章节。...

2021-01-28 11:12:48 389

原创 DataCleaner入门--2.7job示例模板

job示例模板DataCleaner包含一个功能,您可以将作业重用于多个数据存储或同一数据存储中的多个列。我们称此功能为“template jobs模板作业”。当打开job时,会显示一个文件选择器。选择作业文件时,将出现一个面板,其中包含有关作业的一些信息以及可用操作:如果单击“‘Open as template’”按钮,将显示一个对话框,您可以在其中将作业的原始列映射到一组新列:首先需要指定要使用的数据存储。在左侧可以看到原始数据存储的名称,但job不限于仅使用此数据存储。从列表中选择一个数据

2021-01-28 11:08:34 297

原创 DataCleaner入门--2.6保存和打开job

保存和打开job您可以保存job以便以后再次使用。保存job很简单:只需单击窗口顶部面板中的“Save”按钮。分析数据相关的job以“.analysis.xml”的后缀名文件保存。这些文件是可使用任何XML编辑器读取和编辑。打开job可以使用“Open”菜单项完成。打开job将还原一个作业生成窗口,从中可以编辑和运行job。...

2021-01-28 10:36:49 334

原创 DataCleaner入门--2.5执行job

执行job当一个job已经生成时,你可以执行它。要检查作业是否已正确配置并准备好执行,请检查“job building”窗口底部的状态栏。(job白布的下面会有提示,可点击右上角按钮执行job了)要执行作业,只需单击窗口右上角的"Execute"按钮。这将打开结果窗口,其中包含:“Progress information”选项卡,其中包含执行作业时的有用信息和进度指示。生成result/report每个组件类型的附加选项卡。例如,“Value distribution(值分布)”,如果这样的组件被

2021-01-28 10:29:54 304

原创 DataCleaner2.4连接组件

连接组件简单地添加一个转换器(transformer )或过滤器(filter)实际上并不会改变你的工作本身!这是因为只有将这些组件连接在一起,它们才能发挥作用。转换器输出要连接转换器(transformer),只需在图中的组件之间绘制一个箭头。可以通过右键单击第一个组件并从关联菜单中选择"Link to…“来开始绘制。进入绘图模式的另一种方法是选择元件,然后按Shift键连接元件。(箭头连接组件,根据自己的数据需求配置目标元件)过滤条件要连接一个过滤器(filter),您需要对它的任何一个结

2021-01-28 09:58:33 360

原创 DataCleaner入门2.3-向job中添加组件

2.3 向job中添加组件有几种不同类型的组件可以添加到job中:Analyzers (分析器),这是最重要的组件。实际上,job要运行成功至少得有一个分析器(Analyze)(如果执行作业时没有添加分析器,DataCleaner将建议添加一个基本分析器,将输出保存到文件中)。分析器是一个组件,它检查它接收到的数据并生成结果或报告。大多数的数据分析都是分析器来创建的。Transformers(转换器),是用于在分析数据之前修改数据的组件。有时有必要提取一个值的一部分或将两个值组合起来,以便正确地了解

2021-01-26 11:25:27 484

原创 DataCleaner入门2.2-连接datastore

连接数据存储下面是启动DataCleaner(桌面社区版)时显示的初始屏幕截图。通过单击屏幕底部的按钮,可以在“build new job”或“Manage datastores”屏幕中添加新的数据存储。可以使用左上角New按钮,添加文件数据存储(datastore)。下面是一些按钮,可以添加数据库或云服务。如果文件是使用拖放区添加的,则将保留其格式。“Manage datastores”按钮管理者着各种各样的数据存储记录。这个“数据存储管理Datastore management”屏幕-除了查

2021-01-26 10:38:16 702

原创 DataCleaner入门2.1

2.1 安装客户端以下是安装DataCleaner的系统要求:电脑一台jdk1.7及以上专业版的DataCleaner软件许可证文件。如果您要求免费试用或在线购买DataCleaner,此文件将发送到您的电子邮件地址。使用安装程序启动安装过程。安装程序是一个可执行的JAR文件,只要双击它,它在大多数系统上都是可执行的。就是启动一个jar文件。如果双击安装程序时安装程序未启动,请打开命令提示符并输入:java -jar DataCleaner-[edition]-[version]-inst

2021-01-26 10:18:57 1229

原创 DataCleaner简介1.6

什么是主数据管理(MDM)?主数据管理(MDM)是一个非常宽泛的术语,它以多种方式具体化。对于本文档的范围来说,它更多的是作为数据质量的上下文,而不是我们实际以DataCleaner本身为目标的活动。MDM的总体目标是管理组织的重要数据。“主数据”指的是“单一版本的事实”,即不是某一特定系统的数据,而是某一公司的所有客户数据或产品数据。通常这些数据分散在多个数据存储中,因此MDM的一个重要部分是将数据统一到单个模型中的过程。显然,MDM中要处理的另一个非常重要的问题是数据质量。如果您只是从组织中的所有

2021-01-22 15:30:46 432

原创 DataCleaner简介1.5

什么是数据监控(Data monitoring )?我们认为数据分析是一种理想的探索活动。数据监控通常不是!您在分析时经常执行的度量需要不断地检查,以便随着时间的推移强制执行您的改进。这就是数据监控的典型意义。数据监控解决方案由不同情况而定。您可以设置自己每天晚上运行的大量计划作业。您可以围绕它构建警报,当某个特定度量超出允许的阈值时向您发送电子邮件,或者在某些情况下,您可以尝试通过应用在输入时验证数据的首次权利(FTR)原则来完全排除该问题。例如,在数据注册表单时。...

2021-01-22 15:25:57 317

原创 DataCleaner简介1.4

什么是数据存储?数据存储(datastore)是存储数据的地方。企业数据通常存在于关系数据库中,但这一规则有许多例外。为了理解不同的数据源,例如数据库、电子表格、XML文件甚至标准业务应用程序,我们使用了数据存储这一总称。DataCleaner能够从非常广泛的数据存储中检索数据。此外,DataCleaner还可以更新大多数数据存储的数据。可以在UI中或通过配置文件创建数据存储。您可以从任何类型的源创建数据存储,例如:CSV、Excel、Oracle数据库、MySQL等。复合数据存储复合数据存储(.

2021-01-22 15:17:27 1380

原创 DataCleaner简介1.3

什么是数据争用?从维基百科,我们得到了一个很好的“数据争论”的介绍性解释: 数据挖掘或数据争用是一种松散地将数据从一种“原始”形式手动转换或映射到另一种格式的过程,这种格式允许在半自动化工具的帮助下更方便地使用数据。这可能包括进一步挖掘、数据可视化、数据聚合、训练统计模型以及许多其他潜在用途。可以看出,为了分析数据,对数据进行更改通常是很重要的。这就是为什么DataCleaner捆绑了许多转换和改进功能,这些功能不仅允许用户分析数据,还允许用户将数据重塑为合适的形式。...

2021-01-22 15:05:41 418

原创 DataCleaner简介1.2

什么是数据分析?数据分析(Data profiling)是调查数据存储以创建其“profile”的活动。有了数据存储的概要文件,您就可以更好地实际使用和改进它。分析的方式通常取决于您是否已经对数据的质量有了一些想法,或者您是否对手头的数据存储熟不熟练。无论哪种方式,我们都建议采用探索性的方法,因为尽管您认为只需要查找一定数量的问题,但根据我们的经验(以及DataCleaner的许多特性背后的推理),检查数据中您认为正确的项目细节同样重要!一般来说,在你的分析中加入更多的数据可能会有意想不到的结果,更节省

2021-01-21 17:49:41 498

原创 DataCleaner简介1.1

什么是数据质量(DQ)?数据质量(Data Quality简称DQ)是一个概念和一个业务术语,涵盖了用于特定目的的数据的质量。DQ术语通常用于商业决策中使用的数据质量,但也可能指研究、活动、流程等中使用的数据质量。处理数据质量通常因项目而异,正如数据质量的问题有很大的不同。数据质量问题的例子包括:数据的完整性数据的正确性数据冗余数据统一/标准化数据质量分析(DQA)是检查特定过程或组织的数据质量的(人工)过程。DQA包括技术和非技术要素。例如,要做好DQA,您可能需要与用户、业务人员、合

2021-01-21 17:37:08 1458

原创 DataCleaner中文文档

DataCleaner中文自编译文档DataCleaner中文自编译文档Ⅰ.DataCleaner简介1.背景和概念2.DataCleaner桌面版入门Ⅱ.组件分析3. Transform4. Improve 5. Analyze 6. WriteⅢ.数据参考 7. Dictionaries 8. Synonyms (aka. Synonym catalogs) 9. String patternsⅣ.相关配置 10. Configuration file 11. Analysis job files 1

2021-01-21 16:56:08 4416

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除