ETL_数据抽取

若叶时代

已于 2024-06-21 22:38:12 修改

阅读量2.1k

点赞数 1

分类专栏：数据开发文章标签： etl 数据仓库

于 2020-12-01 20:38:26 首次发布

原文链接：https://www.baidu.com/

版权

数据开发专栏收录该内容

8 篇文章 2 订阅

订阅专栏

1 数据源形式

从操作型数据源获取数据.

(1) 结构化数据:可以采用直连数据库的方式进行抽取,一般采用JDBC.优点是数据抽取效率高,但会增加数据库负载,因此需要控制抽取时间,一般选择在凌晨进行结构化数据的抽取.也可以通过数据库日志方式进行抽取,这种方式对数据库产生的影响极小,但需要解析日志

(2) 半结构化数据和非结构化数据:一般采用监听文件变动.优点是比较灵活,可以实时抽取变动的内容,但需要解决增量抽取和数据格式转换等问题.

2 抽取策略

2.1 全量抽取

每次ETL操作均删除目标表数据,由ETL全新加载数据.用来抽取数据量很小并且易处理的数据,如维度表.

特点:抽取规则简单,速度快.

2.2 增量抽取

2.2.1 通过增量标识

抽取时利用属性列来判断哪些数据是增量数据,只抽取这些数据.常见的属性列有更新时间和自增序列.

优点:ETL系统设计清晰,源数据抽取相对清楚简单,速度快.

缺点:时戳维护需要由来源表系统完成,需要修改来源表的结构.工作量大,改动面大.

2.2.2 通过日志表

在来源表系统中添加系统日志表,当业务数据发生变化时,更新维护日志表内容.当ETL加载时,通过读日志表数据决定抽取哪些数据及如何抽取.例如使用Mysql的binlog.

优点:不需要修改来源表结构,源数据抽取清楚,速度较快.

缺点:日志表维护需要由来源表系统完成,维护较为麻烦.

2.2.3 数据合并策略

可根据主键值进行插入与更新的判定,或者根据时间节点分割数据.

3 抽取流程

①确定数据源:数据源的访问方式及抽取方法,数据源的形式等.

②建立逻辑映射:确定来源表结构与目标表结构的映射关系、数据转换规则.

③确定数据抽取策略

④抽取数据并核对,并评估性能.

关注

1
点赞
踩
11

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

若叶时代 CSDN认证博客专家 CSDN认证企业博客

码龄6年

15: 原创

33万+: 周排名

5万+: 总排名

4万+: 访问

: 等级

447: 积分

13: 粉丝

14: 获赞

11: 评论

105: 收藏

私信

关注

热门文章

分类专栏

最新评论

后端服务框架_Spring_依赖注解
CSDN-Ada助手: SpringBoot项目里的定时任务和Linux Cron 定时任务是什么关系呢？
Spark_工具使用
CSDN-Ada助手: Spark 中的 MLlib 和 TensorFlow 的比较，它们各自的优点和适用场景是什么？
数据分析_Elasticsearch
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)提升标题与正文的相关性。
Hive_数据模型_分区
CSDN-Ada助手: 大数据处理系统发展了这么多年，Map/Reduce 还是核心的理论基础么？
数据仓库_概念
CSDN-Ada助手: 学大数据一定要学 Hadoop 么？

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。