自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 演员维度表和电影维度表

一、加载演员数据至演员维度表1.打开Kettle工具,创建转换2.配置表输入控件2.配置表输入2控件4.配置插入/更新控件双击“插入/更新”控件,进入“插入/更新”界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。单击目标表右侧的【浏览】按钮,弹出“数据库浏览器”窗口,选择目标表,即维度表dim_actor。单击【获取字段】按钮,用来指定查询数据所需要的关键字,这里选择的是...

2021-11-10 21:24:50 1191

原创 用户维度表与商店维度表

一、加载用户数据至用户维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。2.配置表输入控件在SQL框中编写用于获取字段customer_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_customer_last_upda...

2021-11-10 21:12:46 1261

原创 数据仓库案例

一、加载日期数据至日期维度表1.打开Kettle工具,创建转换使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示。2.配置生成记录控件双击“生成记录”控件,进入“生成记录”配置界面。3.配置增加序列控件双击“增加序列”控件,进入“增加序列”配置界面,并在“值的名称”处将valuename改为DaySequence...

2021-11-05 17:17:59 1191

原创 数据的加载机制

一、全量加载1.数据准备假设,现有两张数据表,分别为数据表full_source和数据表full_target,其中数据表full_source为源数据表,数据表full_target为目标数据表。2.打开Kettle工具,创建转换使用Kettle工具,创建一个转换full_load,并添加执行SQL脚本控件、表输入控件、表输出控件以及Hop跳连接线,具体如图所示。2.配置执行SQL脚本控件单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库...

2021-11-02 16:58:56 367

原创 2021-10-30

一、Excel输入1.建立转换2.设置参数3.查看被选中的文件名称。单击【显示文件名称…】按钮,弹出【文件读取】对话框,查看被选中读取的文件,如图所示。4.设置工作表5.【字段】选项卡参数6. 预览记录二、生成记录1.加入控件2.设置控件3.预览记录三、生成随机数1.加入控件2.配置控件3.预览记录四、获取系统信息1.加入控件2.配置控件3.预览记录...

2021-10-30 22:30:59 64

原创 数据粒度的转换

一、1.配置文本输入控件2.3.配置排序记录控件4.配置表输入控件5.配置记录集连接控件6.配置字段选择2控件7.配置排序记录3控件8.配置表输入3控件9.配置排序记录4控件10.配置记录集连接2控件11.配置过滤记录控件12.配置字段选择3控件13.配置表输出控件14.配置字段选择4控件15.配置表输出2控件二、1.打开Kettle工具,新建转换2.配置表输入控件3....

2021-10-18 17:27:15 305

原创 数据清洗与校验

完全去重 建立转换 2.配置CSV文件输入控件3.配置”唯一行(哈希值)”控件4.运行转换repeat_transform5.查看merge.csv是否消除完全重复的数据 缺失值的填充 建立转换 2.配置文本文件输入控件3.配置过滤记录控件4.配置替换NULL值控件5.配置替换NULL值2控件6.配置字段选择控件7.运行转换fill_missing_val...

2021-10-13 10:40:19 295

原创 Kettle CSV文件与json文件转换实例

一、CSV文件转换CSV是Comma-Separated Values的缩写,即逗号分隔值。CSV文件是用逗号分隔数据字段的文件,因此也被称为逗号分隔值文件,有时会使用字符来替代逗号实现分隔,因此,也被称为字符分隔文件。CSV文件是以纯文本形式存储表格数据(数字和文本),纯文本意味着该文件是一个字符序列。CSV文件可通过Excel打开,也可以通过txt、Notepad++等文本编辑器打开,从而对文件进行查看、编辑等操作。 CSV文件是由任意数目的记录组成,记录之间以某种换行符分隔;每条...

2021-10-07 15:55:15 1076

原创 《数据清洗》日常学习笔记--Kettle基础概念

Kettle基础概念Kettle转换转换包括一个或多个步骤,步骤之间通过跳(hop)来连接。跳定义了一个单向通道,允许数据从一个步骤流向另一个步骤。在Kettle中,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。转换。Kettle在运行转换的时候,根据用户的设置,可以将数据以不同的方式发送到多个数据流中。 转换。转换以并行的方式执行,就需要一个可以串行执行的作业来处理这些操作(作业以串行执行)。 转换。是ETL解决方法中最主要的部分,它处理抽取,转换,加载各阶...

2021-09-13 17:31:31 865

原创 《数据清洗》日常学习笔记

因为原始数据中存在着一些错误、重复的数据,直接使用的话会严重影响数据决策的准确性和效率,所以要对原始数据进行有效的清洗是大数据分析过程中的关键环节。1.1.1数据质量的评价指标包括数据的准确性、完整性、简洁性、适用性。 其中准确性、完整性、简洁性是为了保证数据的适用性1.1.2数据质量的问题分类一类是基于数据源的“脏”数据分类;另一类是基于清洗方式的“脏”数据分类。A.基于数据源的“脏”数据分类数据又分为单数据源和多数据源...

2021-09-08 20:43:50 677

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除