数据清洗第二章知识点

ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的不完整数据,重复数据以及错误数据等“脏”数据内容通过清洗转换操作转变为符合企业要求的数据,便于为企业的决策提供分析依据。

一:基于ETL的数据清洗

  • ETL是实现商务智能的核心和灵魂。
  • ETL的实现有多种方式,常见的方式有借助ETL工具、编写SQL语句、将ETL工具和SQL语句结合起来使用。
  • 如果数据源为外部文件,就无法使用SQL语句进行数据清洗工作。

二:ETL关键技术

ETL关键技术一共有三个,分别是数据的抽取,数据的清洗转换以及数据的加载。

1. 数据的抽取

  •  数据的抽取就是从异构数据源抽取数据,但是并不是所有数据源中的数据都有实际的价值。
  • 数据的抽取分为数据的全量抽取和数据的增量抽取。
  • 全量抽取类似于数据迁移或数据复制。增量抽取式是抽取数据源表中新增或被修改的数据。
  • 数据的增量抽取有四种方式:一,触发器方式;二,时间戳方式;三,全表对比方式;四,日志表方式。

2.数据的清洗转换

  • 数据的清洗转换是指将抽取到的数据源表中的数据,根据数据仓库系统模型的要求进行数据的清洗,转换等操作。
  • 数据的清洗转换是ETL中最复杂的部分,主要任务是过滤掉不符合要求的数据。不符合要求的数据主要是有不完整的数据,错误的数据,重复的数据三大类。
  • 不完整数据主要包括缺失部分信息的数据。
  • 重复数据检测主要分为基于字段和基于记录的重复检测。基于字段的重复检测算法主要为编辑距离算法。基于记录的重复检测算法主要包括排序邻居算法,优先队列算法,N-Gram聚类算法。

3.数据的加载

  • 数据的加载是ETL的最后一个阶段,它的主要任务是将数据从临时数据表或文件中加载到指定的数据仓库中。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值