数据仓库——ETL(详细教程)

目录

建模方式

ETL

新建etl项目,设置项目名称位置

新建数据源

新建SSLS包

做全量

双击编辑执行SQL任务

 双击编辑数据流任务

编辑OLE DB源

编辑数据流转换

编辑OLE DB源目标

右键选择执行

做增量 

编辑执行SQL任务

编辑任务条件

编辑数据流任务1

编辑数据流任务2

执行任务

数据类型不同不能转换的问题


建模模型:维度模型——生成维度表,事实表
事实表为什么叫事实表?——表里有需要被统计的列


建模方式

使用PowerDesigner建立数据模型导出sql文件


1》星模型。事实表关联相关维度表(开发时最多使用)
2》雪花模型。区别 维度表还关联了另一维度表(多张表关联【查询速度慢:通常做降维 >>维度合并 >> 变成星型模型   合并后有重复数据不再符合三段式】)
3》星座模型。多个事实表共同关联维

ETL

将源数据etl到数据仓库里

 新建etl项目,设置项目名称位置

 新建数据源

本地服务器名:  . 

 新建SSLS包

做全量

当前数据量比较小,当数据量大时做增量

做全量的步骤,先清空再将数据移动过来


双击编辑执行SQL任务

执行第一步,先将表中的内容删除

 双击编辑数据流任务

 创建传输流程

编辑OLE DB源

编辑数据流转换

 编辑OLE DB源目标

 

 右键选择执行

变绿执行成功

下面是对事实表做增量

做增量 

创建增量序列容器

 编辑执行SQL任务

编辑任务条件

 选中左边线路

 选中右边线路

 编辑数据流任务1

假设是15号开始建立数据仓库

第一步是将14号及之前的所有数据做全量

同样在数据源中选择出符合数据仓库列的内容

 其余步骤与做全量一样

 编辑数据流任务2

保存过14号之前的数据这里从第15号开始

这里改为=

 后面过程相同

执行任务

第一次执行会执行左边,这是第二次执行会执行右边

数据类型不同不能转换的问题

sql server中更改列表类型默认不能更改需要到工具—选项—设计器中取消掉阻止更改,确定并刷新

  • 13
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
好的,下面是数据清洗ETL的步骤详细介绍: 1. 数据提取(Extract):从原始数据源中提取需要的数据,通常会使用数据抽取工具,例如 Sqoop、Flume 等,将数据从各种数据源如关系型数据库、文件等中读取出来。 2. 数据转换(Transform):对提取的数据进行转换处理,包括数据清洗、数据处理、数据过滤、数据合并、数据排序、数据聚合、数据抽样等操作,通常会使用 ETL 工具,例如 Kettle、Talend 等。 3. 数据加载(Load):将经过转换的数据加载到目标系统中,通常包括数据插入、更新、删除、替换等操作,目标系统可以是关系型数据库数据仓库、Hadoop 等,通常会使用 ETL 工具进行数据加载。 4. 数据清洗(Clean):在数据转换的过程中,对于一些不符合标准的数据需要进行清洗,例如去除脏数据、重复数据、缺失数据等,确保数据的准确性和完整性。 5. 数据校验(Validate):在数据加载完成后,需要对数据进行校验,确保数据的正确性和一致性,例如对数据进行完整性检查、业务规则检查、数据格式检查等。 6. 数据整合(Integrate):在数据加载完成后,需要将所有的数据进行整合,通常会使用数据仓库等工具,将数据整合成一个统一的视图。 7. 数据管理(Manage):对于数据的管理包括数据备份、数据恢复、数据安全等,确保数据的安全性和稳定性。 以上就是数据清洗ETL的步骤详细介绍,希望对你有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值