自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 数据清洗-第八章实例

8.3.8加载电影数据至电影维度表1.打开Kettle工具,创建转换load_dim_film。 图12.配置表输出控件。(1)双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。 ...

2021-11-15 16:59:12 194

原创 数据清洗-第八章实例

8.3.5加载用户数据至用户维度表1.打开Kettle工具,创建转换load_dim_customer 图12.配置表输入控件(1)双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。 ...

2021-11-15 16:12:41 1287

原创 数据清洗-综合案例-构建DVD租赁商店数据仓库

8.3.2加载日期数据至日期维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图1所示。...

2021-11-07 17:50:38 303

原创 数据加载-操作题

1.现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。数据表full_source和full_target的具体内容如下所示: 数据表full-source ...

2021-11-03 11:49:10 151

原创 数据清洗-例子

1.Excel输入双击“Excel输入”控件,进入Excel输入控件界面,首先点击“文件”,选择“浏览”按钮,找到物理成绩.xls文件,选择“增加”按钮,如图1所示;然后点击“工作表”,获取工作表名称;最后点击“字段”按钮,添加字段,点击“预览记录”得到数据,具体如下图所示。 图1 ...

2021-10-31 17:50:10 288

原创 数据转换-操作题

现有一个文本文件personnel_data.txt,包含字段id、name、id_number、household_register和salary,具体内容如下所示: 1.对文本文件personnel_data.txt中的数据进行数据粒度的转换,即将文本文件personnel_data.txt中字段为household_register的数据统一成省份,并输出到文本文件personnel_data_new.txt中。(1)打开Kettle工具,新建转换 使用Kettl...

2021-10-21 22:53:23 237

原创 数据的清洗与检验

1.通过kettle工具,对文件merge.csv进行完全去重。具体步骤如下所示:(1)数据准备。(2)打开Kettle工具,创建转换 打开Kettle工具,创建一个新的转换(可以默认转换1),添加“CSV文件输入”控件,“唯一行(哈希值)”控件,具体如图1.1所示。(3)配置“CSV文件输入”控件 双击“CSV文件输入”控件,进入此控件界面中,首先单击“浏览”按钮,选择要完全去重处理的CSV文件merge.csv;接着单击“获取字段"按钮,Kettle会自动检索CSV...

2021-10-12 21:04:04 107

原创 数据抽取-实例

1.抽取CSV文件csv_extract.csv中的数据保存至数据库extract中的数据表csv中。具体步骤如下:(1)打开kettle工具创建一个转换csv_extract,并添加“CSV文件输入”控件,“表输出”控件以及Hop跳连接线,用于实现CSV文件的抽取功能。如图1.1所示。 图1.1(2)配置“CSV文件输入”控件,双击此控件进入“CSV文件输入”界面,首先单击“浏览”按钮,选择要抽取的文件csv_extract.csv;接着单击“获取字...

2021-09-28 21:33:59 350

原创 转换与作业-简单的例子

1.转换 转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。 下面通过一个简单的例子来讲解转换。 双击Kettle目录下的Spoon.bat脚本,启动Kettle工具,在工具栏处选择“文件”-“新建”-“转换”命令,创建一个转换,默认名称为“转换1”,如图1.1所示。 在Kettle主界面的工作区右击空白处,从弹出的快捷菜单中选择“新建注释”命令,并添加注释的内容...

2021-09-21 19:28:06 109

原创 数据清洗概述

1.数据质量的概述 数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度,且在不同的业务场景中,数据消费者对数据质量有各自不同的观点。 数据质量的特点有以下三点:(1)“业务需求”会随时间变化,数据质量也会随时间变化。(2)数据质量可以借助信息系统度量,但独立于信息系统的存在。(3)数据质量存在于数据的整个生命周期,锁着数据的产生而产生,随着数据的消失而消失。2.数据质量的评价标准(1)准确性:要求数据中的噪声尽可能少。(2)完整...

2021-09-12 17:36:56 1262

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除