DataCleaner中文文档

DataCleaner中文文档

DataCleaner是一个数据质量工具包,您可以分析、更正和丰富数据。主要是分析数据,清洗数据,以及在匹配和主数据管理解决方案中使用。最后的数据呈现不是太直观。
最近工作中刚好使用到,看了原官方全英文文档不是那么直观,谷歌自动翻译也很难受。抽空自己人性化翻译了一下,便于有兴趣的伙伴了解理解。按照官网文档直译,需结合实际操作才能愈加熟悉了解。
官方文档地址:https://datacleaner.github.io/documentation
DataCleaner官网:https://datacleaner.org
功能拓展社区:https://github.com/schic/DQCS
Ⅰ.DataCleaner简介

1.背景和概念

      1.1 什么是数据质量(DQ)?
      1.2 什么是数据分析?
      1.3 什么是数据争用?
      1.4 什么是数据存储?
            复合数据存储
      1.5 什么是数据监控?
      1.6 什么是主数据管理(MDM)?

2.DataCleaner桌面版入门

      2.1 安装客户端
      2.2 连接数据库(或存储文件)
      2.3 向job中添加组件
      2.4 连接组件
            转换器输出
            过滤条件
            输出数据流
      2.5 执行job
      2.6 保存和打开job
      2.7 job示例模板
      2.8 将清洗后的数据写入文件
Ⅱ.组件分析

3. Transform

      3.1 JavaScript 转换器
      3.2 调用子分析job
      3.3 Apply classifier & Apply regression
      3.4 Equals 过滤器
      3.5 Max rows 过滤器
      3.6 Not null 过滤器
      3.7 Union转换器

4. Improve

      4.1 近义词查找
      4.2 表查询

5. Analyze

      5.1 布尔分析器
      5.2 完整性分析器
      5.3 字符集分布
      5.4 日期间隔分析器
      5.5 日期/时间分析器
      5.6 数字分析器
      5.7 模式工具
      5.8 参考数据匹配器
      5.9 参照完整性
      5.10 字符串分析器
      5.11 主键检查
      5.12 值分布
      5.13 值匹配
      5.14 工作日分布
      5.15 机器学习

6. Write

      6.1 创建CSV文件
      6.2 创建Excel表格
      6.3 创建临时表
      6.4 插入表格
      6.5 更新表格

Ⅲ.数据参考

7. Dictionaries

      7 字典

8. Synonyms (aka. Synonym catalogs)

      8.1 文本文件同义词目录
      8.2 数据存储同义词目录

9. String patterns

      9 字符串模式
Ⅳ.相关配置

10. Configuration file

      10.1 XML模式
      10.2 数据存储
            数据库(JDBC)连接
            逗号分隔值(CSV)文件
            固定宽度值文件
            Excel 数据存储
            XML 数据存储
            ElasticSearch 数据存储
            MongoDB 数据存储
            CouchDB 数据存储
            复合数据存储
      10.3 参考数据
            字典
            同义词目录
            字符串模式
      10.4 任务执行器
      10.5 存储提供商

11. Analysis job files

      11.1 xml模式
      11.2 Source section

12. Logging

      12.1 日志配置文件
      12.2 默认日志配置
      12.3 修改日志级别
      12.4 选择性日志输出

13. Database drivers

      13.1 在DataCleaner桌面中安装数据库驱动程序
Ⅴ.调用 DataCleaner jobs

14. Command-line interface

      14.1 可执行程序
      14.2 使用场景
      14.3 执行分析job
      14.4 列出数据存储内容和可用组件
      14.5 参数化job
      14.6 动态重写配置元素

15. Apache Hadoop and Spark interface

      15.1 Hadoop部署概述
      15.2 设置Spark和DataCleaner环境
                     将配置文件上传到HDFS
                     将作业文件上传到HDFS
                     将可执行文件上传到HDFS
      15.3 使用Spark启动DataCleaner作业
      15.4 在DataCleaner桌面端使用Hadoop
                     配置Hadoop集群
                     HDFS上的CSV数据存储
      15.5 Hadoop接口的限制

Ⅵ.第三方集成

16. Pentaho integration

      16.1 在Pentaho数据集成中配置DataCleaner
      16.2 启动DataCleaner以分析Pentaho数据集成步骤
      16.3 在Pentaho数据集成中运行DataCleaner作业
Ⅶ.开发者指南

17. Architecture

      17.1 数据存取
      17.2 处理框架

18. Executing jobs through code

      18.1 步骤和选项概述
      18.2 第一步:配置
      18.3 第二步:作业
      18.4 第三步:执行
      18.5 第四步:结果

19. Developer resources

      19.1 扩展开发教程
      19.2 Building DataCleaner

20. Extension packaging

      20.1 组件上的注解
      20.2 单个jar文件
      20.3 扩展元数据XML
      20.4 组件图标

21. Embedding DataCleaner

      21 嵌入DataCleaner

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Flink的flatMap操作是一种针对数据流的转换操作,可以用于清洗数据。在Flink中,flatMap操作可以将一个输入元素映射为零个、一个或多个输出元素。 为了清洗数据,你可以使用flatMap操作来实现以下步骤: 1. 定义一个自定义的flatMap函数,实现数据清洗逻辑。该函数将输入的数据进行处理,并生成一个或多个清洗后的输出元素。 2. 在Flink的DataStream上使用flatMap函数进行转换。使用`flatMap`方法并传入自定义的flatMap函数即可。 下面是一个简单的示例,展示如何使用Flink的flatMap操作进行数据清洗: ```java import org.apache.flink.api.common.functions.FlatMapFunction; import org.apache.flink.util.Collector; public class DataCleaner implements FlatMapFunction<String, String> { @Override public void flatMap(String value, Collector<String> out) { // 数据清洗逻辑 // 这里只是一个示例,你可以根据实际需求进行自定义处理 String cleanedData = value.replaceAll("[^a-zA-Z0-9]", ""); // 将清洗后的数据输出 out.collect(cleanedData); } } public class Main { public static void main(String[] args) throws Exception { final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 读取输入数据流 DataStream<String> input = env.fromElements("Hello, World!", "Flink is awesome!"); // 应用flatMap操作进行数据清洗 DataStream<String> cleanedData = input.flatMap(new DataCleaner()); // 输出清洗后的数据流 cleanedData.print(); env.execute("Data Cleaning Example"); } } ``` 在上面的示例中,我们定义了一个`DataCleaner`类,实现了`FlatMapFunction`接口,其中的`flatMap`方法用于执行数据清洗逻辑。在`Main`类中,我们创建了一个Flink的执行环境,并读取了输入的数据流。然后,我们应用了`flatMap`操作,传入`DataCleaner`类的实例。最后,我们将清洗后的数据流进行打印输出。 请根据实际需求修改`DataCleaner`类中的数据清洗逻辑,并运行示例代码来进行数据清洗操作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值