ETL
大富的大数据之路
大数据开发程序媛
展开
-
1- ETL概念
1、什么是ETL?ETL通常是按一个固定的时间间隔,周期性定时执行的,对于整体拉取的方式,每次导入的数据需要覆盖上次导入的数据。Sqoop提供了delete-target-dir参数实现覆盖导入。该参数指示在每次抽取数据前先将目标目录删除,作用是提供了一个幂等操作的选择。所谓幂等操作指的是其执行任意多次所产生的影响均与一次执行的影响相同。这样就能在导入失败或修复bug后可以再次执行该操作,而不用...原创 2019-07-11 14:47:37 · 250 阅读 · 0 评论 -
2- ETL-定期ETL
初始装载只在开始数据仓库使用前执行一次,然而,必须按时调度定期执行ETL。与初始装载不同,定期装载一般都是增量的,而且需要捕获并记录数据的变化历史1、变化数据捕捉 数据获取处理需要重点考虑增量抽取,也被称为变化数据捕获,简称CDC 假设一个数据仓库系统,在每天夜里的业务低峰时间从操作型源系统抽取数据,那么增量抽取只需要过去24小时内发生变化的数据。变化数据捕获也是建立准实时数据仓库的关...原创 2019-07-11 15:03:21 · 275 阅读 · 1 评论 -
3- ETL-ETL设计一
ETL设计分三部分: 1> 数据抽取 2> 数据的清洗转换 3> 数据的加载 继承问题: 1> 抽取,怎么从源系统抽取?抽取的步骤是什么?有哪些抽取方法? 2> 数据的清洗和转换都做了哪些事情? 3> 加载,怎么加载到数据仓库? 4> 数据仓库通常分为好几层,这里的加载加载进哪一层?* 回答...原创 2019-07-12 12:18:39 · 309 阅读 · 0 评论 -
4- ETL-ETL设计二
111原创 2019-07-12 12:22:34 · 143 阅读 · 0 评论 -
5- ETL-ETL实现方法
ETL的实现有多种方法,常用的有三种: 一种是借助ETL工具(如Oracle的OWB、SQLServer2000的DTS、SQLServer2005的SSIS服务、Informatic等)实现 一种是SQL方式实现 一种是ETL工具和SQL相结合 两种方法各有各的优缺点,借助工具可以快速的建立起ETL工程,屏蔽了复杂的编码任务,提高了速度,降低了难度,但是缺少...原创 2019-07-12 12:25:49 · 1083 阅读 · 0 评论 -
6- ETL-ETL日志
1、ETL日志 ETL日志分为三类。一类是执行过程日志,这一部分日志是在ETL执行过程中每执行一步的记录,记录每次运行每一步骤的起始时间,影响了多少行数据,流水账形式。一类是错误日志,当某个模块出错的时候写错误日志,记录每次出错的时间、出错的模块以及出错的信息等。第三类日志是总体日志,只记录ETL开始时间、结束时间是否成功信息。如果使用ETL工具,ETL工具会自动产生一些日志,这一类日志也可以...原创 2019-07-12 12:28:46 · 2364 阅读 · 0 评论