自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 第八章 综合案例——构建DVD租赁商店数据仓库③

8.3.7 加载演员数据至演员维度表1.打开Kettle工具打开Kettle工具,创建一个转换load_dim_actor,并添加表输入,插入/更新等控件。2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。 在SQL框中编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_actor_las...

2021-11-19 21:46:25 336

原创 第八章 综合案例——构建DVD租赁商店数据仓库②

8.3.5加载用户数据至用户维度表1.打开Kettle工具打开Kettle工具,创建一个转换load_dim_customer,并添加表输入,映射(子转换),字段映射,值映射,维度查询/更新等控件。 2.配置表输入控件双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。 ...

2021-11-18 21:33:52 307

原创 第八章 综合案例——构建DVD租赁商店数据仓库①

8.3.2 加载日期数据至日期维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线。 2.配置"生成记录"控件双击“生成记录”控件,进入“生成记录”配置界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)、ini...

2021-11-18 17:32:49 426

原创 第七章 数据加载——操作题

1.现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。通过使用Kettle工具,实现将数据表full_source中的数据全量加载到数据表full_target中。具体操作如下:(1)打开Kettle工具,创建转换 使用Kettle工具创建转换full_load,添加“执行SQL脚本”控件、“表输入”控件、“表输出”控件。 ...

2021-11-17 20:00:17 103

原创 ETL——操作实例

1.Excel输入双击“Excel输入”控件,进入Excel输入控件界面,首先点击“文件”,选择“浏览”按钮,找到物理成绩.xls文件,选择“增加”按钮。然后点击“工作表”,获取工作表名称。最后点击“字段”按钮,添加字段。点击“预览记录”得到数据,具体如下图所示。 2.生成记录双击“生成记录”控件,进入生成记录控件界面,首先将限制参数改为12,然后在“字段表”中,对...

2021-11-17 11:51:47 1401

原创 第六章 数据转换——操作题

现有一个文本文件personnel_data.txt,包含字段id、name、id_number、household_register和salary,具体内容如下所示: 1.对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnel_data_new.txt中。(1)打开Kettle工具,新建转换 使用Kettl...

2021-11-16 21:43:22 222

原创 第五章 数据的清洗与检验——操作题

通过Kettle工具,实现以下功能:1.对文件merge.csv进行完全去重。(1)打开Kettle工具,新建转换使用Kettle工具创建转换repeat.transform,并添加“CSV文件输人”控件、“唯一行(哈希值)”控件以及Hop跳连接线(2)配置“CSV文件输入”控件,进入“CSV文件输入”界面双击“CSV文件输入”控件,进入“CSV文件输入”界面单击“浏览”按钮,选择要进行完全去重处理的CSV文件merge.csv单击“获取字段”按钮Kettle会自动检索...

2021-10-12 23:06:22 306

原创 第四章 数据抽取——操作题

通过Kettle工具,实现以下功能:1.抽取CSV文件csv_extract.csv中的数据保存至数据库extract中的数据表csv中。(1)打开Kettle工具,创建转换使用Kettle工具创建一个转换csV_extract,并添加"CSV文件输入”控件、“表输出”物件以及Hop跳连接线,用于实现CSV文件数据的抽取功能(2)配置“CSV文件输入”控件双击“CSV文件输入控件”,进入“CSV文件输入”界面。单击浏览按钮,选择要抽取的文件csv_extract.csv单击..

2021-09-29 23:10:04 309

原创 用Kettle实现转换和作业例子

一.转换双击Kettle目录下的Spoon.bat脚本,启动Kettle工具,在工具栏处选择 “文件”→“新建”→“转换”命令,创建一个转换,名称默认是“转换1”选择“文件”→“保存”命令,可以对转换进行重命名以及选择转换保存路径,重命名为example主对象树中的节点主要用于显示当前转换的运行配置参数、数据库连接、步骤以及节点连接(跳)等信息。单击Kettle树形列表的核心对象,切换到转换的核心对象界面。核心对象中包含Kettle所有的转换步骤(或转换控件),后续设计转换操作时...

2021-09-29 17:55:29 2097 1

原创 读书笔记-第1章 数据清洗概述

学习目标1、了解数据清洗的背景2、了解数据清洗的定义3、熟悉数据清洗的原理4、掌握数据清洗的具体流程5、了解常见数据清洗的策略和方法1.1数据清洗的背景 当今时代,企业信息化的要求越来越迫切。对于企业的决策者来说,正所谓“垃圾进垃圾出(garbage in,garbage out)”如果作为决策支持的数据仓库存放的数据质量达不到要求将直接导致数据分析和数据挖掘不能产生理想的结果,甚至还会产生错误的分析结果,从而误导决策。因此,我们需要对数据仓库中的数据进行相关清洗操作...

2021-09-12 17:10:09 93

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除