自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 用kettle实现数据加载(二)

一、电影演员数据至演员维度表使用Kettle工具,创建一个转换load_dim_actor,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示。双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,在SQL框中编写SQL语句,用于获取字段actor_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_actor_last_up.

2021-11-16 20:54:04 796

原创 用kettle实现数据加载(一)

案例一 :加载用户数据至用户维度表使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示。在SQL框中编写用于获取字段customer_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”

2021-11-16 20:38:33 498

原创 kettle数据清洗综合案例

一、加载日期数据至日期维度表使用Kettle工具,创建一个转换load_dim_date,并添加生成记录控件、增加序列控件、JavaScript代码控件、表输出控件以及Hop跳连接线,具体如图所示。双击“生成记录”控件,进入“生成记录”在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年的日期(10*365);在“字段”框添加字段language(语言)、country_code(国家码)、initial_date(初始化的日期),对生成的日期进行初始化,具体如图所

2021-11-05 22:04:56 2269 1

原创 kettle数据清洗

Excel文件采用表格的形式,数据显示直观,操作方便。 与文本文件不同,Excel文件中采用工作表存储数据,一个文件有多张不同名称的工作表,分别存放相同字段或不同字段的数据。 为方便浏览和统计学生的考试成绩,需要通过Excel输入抽取物理成绩数据。一、Excel文件输入1、使用Ctrl+N快捷键,创建【Excel输入】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳拖曳到右边工作区中,如图所示。2、双击【Excel输入】组件,弹出【Excel输入】对话框

2021-11-02 21:38:13 4309

原创 kettle 数据加载机制——全量加载

数据的加载机制与数据的抽取机制相类似,数据的加载机制可以分为全量加载和增量加载。其中,全量加载是指将目标数据表中的数据全部删除后,进行数据加载的操作;而增量加载是指目标表只加载源数据表中变化的数据,其中变化的数据包含新增、修改和删除的数据。从技术角度来说,全量加载比增量加载的操作要简单很多,即只需要在数据加载之前,将目标数据表进行清空,再将源数据表中的数据全部加载到目标表中。步骤1、使用Kettle工具,创建一个转换full_load,并添加执行SQL脚本控件、表输入控件、表输出控件以及Hop跳

2021-10-28 15:58:52 646

原创 kettle实现数据粒度的转换以及商务规划计算

(一)、数据颗粒度转换业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的,不需要非常明细的数据。一般情况下,会将业务系统数据按照数据仓库粒度进行聚合,这个过程就被称为数据粒度的转换。例如,将城市转换成省份或者直辖市。步骤一、转换generalization1.打开Kettle工具,新建转换使用Kettle工具,创建一个转换generalization,添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线。(2..

2021-10-23 21:48:41 600

原创 使用kettle工具实现完全去重和缺失值处理

一、完全去重完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。例如,现在有两个表格分别记录的不同年份的用户信息,现要求合并统计所有用户信息,发现合并后的表格存在完全重复的数据,为了便于后期更加方便地使用这些用户数据,通常情况下会对数据进行去重操作。步骤1、...

2021-10-13 11:43:57 2172 1

原创 使用kettle工具抽取CSV文件和json文件

一、抽取csv文件CSV是Comma-Separated Values的缩写,即逗号分隔值。CSV文件是用逗号分隔数据字段的文件,因此也被称为逗号分隔值文件,有时会使用字符来替代逗号实现分隔,因此,也被称为字符分隔文件。CSV文件是以纯文本形式存储表格数据(数字和文本),纯文本意味着该文件是一个字符序列。CSV文件可通过Excel打开,也可以通过txt、Notepad++等文本编辑器打开,从而对文件进行查看、编辑等操作。 CSV文件是由任意数目的记录组成,记录之间以某种换行符分隔;每条记录由字段组成,字

2021-10-07 17:42:31 290

原创 kettle的转换与作业

1、转换转换是ETL解决方案中重要的组成部分之一,它主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。实例:步骤是转换里的基本组成部分,也可被称为控件。例如上图的表输入和文本文件输出。跳是步骤之间带箭头的连接线,即数据的通道,用于连接两个步骤,实现将元数据从一个步骤传递到另一个步骤。在kettle中所有步骤都是以并发方式执行的。2、作业目前,大多数的ETL项目都需要完成各种各样的维护工作。例如,如何传送文件、验证数据库中...

2021-09-19 20:05:07 469

原创 数据清洗技术的概述

基于ETL的数据清洗技术数据仓库:是一个面向主题的、集成的、相对稳定的、且随时间变化的数据集合,用于支持管理决策。是数据源的整合,需要统一的数据采集,处理,存储,分发,共享。由上图可知,数据仓库是DSS(决策支持系统),BI(商务系统)的基础,试想:如果作为决策支持的数据仓库存放的数据不达标,将直接导致数据挖掘,数据分析得不到理想信息,甚至得到错误信息,进而误导决策。由此可见得到数据仓库中数据质量的重要性。数据质量定义:是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场

2021-09-12 17:09:24 2269

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除