自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 Kettle:综合案例--构建DVD租赁商店数据仓库3

目录1.加载演员数据至演员维度表2.加载电影数据至电影维度表一、电影演员数据至演员维度表1.使用Kettle工具,创建一个转换,并添加表输入控件、插入/更新控件以及Hop跳连接线,具体如图所示(2)配置表输入控件配置表输入控件,浏览数据。预览数据双击“表输入”控件,进入“表输入”配置界面,单击【新建】按钮,配置数据库连接,配置完成后单击【确认】按钮。MySQL数据库连接的配置,如图所示(3)配置表输入2控件双击“表输入2”控件,进入“表输入”...

2021-11-16 21:18:04 546

原创 kettle实现数据先加载

一、加载用户数据至用户维度表1.打开kettle创建一个新的转换并命名,添加控件“表输入”(两个)、“映射(子转换)”、“字段选择”、“值映射”、“维度查询/更新”。并建立Hop跳连接线。2.双击“表输入”控件,点击“新建”建立数据库连接,配置如下图,并输入获取字段的代码,代码如下,点击浏览查看是否获取成功。3.双击“表输入2” ,新建数据库连接,配置完成后输入代码获取字段,并查看字段是否获取成功。4.新建一个子转换并命名,并按下图添加控件。5....

2021-11-16 20:12:06 175

原创 ETL数据准备阶段

一:加日期数据至日期维度表1.打开kettle工具创建日期转换load_dim_date ->添加生成记录控件 ->增加序列控件 ->JAVAScript代码控件 ->表输出控件 ->hop连接线,效果如图所示2.配置生成记录控件->进入此页面,效果如图所示3.限制处添加生成的日期,默认为10,改为3650,生成十年的日期->在字段框添加字段language(语言),country_code(国家码),initial_date(初始化日期),对.

2021-11-16 17:43:38 186

原创 kettle实现数据清洗

一:Excel的输入1.把即将要处理的文件保存到Excel表中->打开kettle ->创建转换 ->创建Excel输入控件.效果如图所示2.双击Excel输入控件 -> 单机浏览 -> 选择所需要处理的Excel表 -> 单机添加 ->点击工作表完成配置 -> 点击获取字段如下图->点击确定完成配置3.点击预览看是否导入成功4.运行并查看数据二:生成记录1.打开 kettle,创建转换->创...

2021-10-28 16:38:17 4837

原创 用kettle实现数据的加载机制

一、全量加载1.打开kettle创建一个转换。并命名为full_load。并添加“执行SQL脚本”,“表输入”和“表输出”控件,建立hop跳连接线。2.配置“执行SQL脚本”控件点击新建将数据库连接好,数据库配置完成后点击确认。提前将所要处理的数据存入数据库中,在SQL编辑框中删除full_target种的数据,单击确定完成配置。3.输入”控件双击进入“表输入”配置界面,在SQL编写框中查询表full_source中的数据,代码如下图,点击“预览”查看数据,完成后点击...

2021-10-21 23:05:48 277

原创 kettle实现颗粒度转换

一、对文本文件进行数据粒度转换,即将文本文件personnel_data.txt中字段household_register的数据统一成省份,并且输出到文本文档personnel_data_new.txt中。1.打开Kettle工具,新建转换使用Kettle工具->创建一个转换generalization->添加文本文件输入控件、表输入控件、字段选择控件、排序记录控件、记录集连接控件、表输出控件以及Hop跳连接线。2.配置文本文件输入控件,双击“文本文件输入”控件,进入“文本文件输入”

2021-10-21 21:44:31 223

原创 数据的清洗和检验(完全去重,缺失值的填充)

一:完全去重1.打开kettle工具,新建转换 -> 创建CSV文件输入控件 -> 1唯一行(哈希值)控件 -> 跳连接线2.配置CSV文件输入控件 -> 进入CSV文件控制页面,如图所示3.点击浏览 -> 选择完去重的文件merge.csv4.点击获取字段,效果如图所示5.点击预览,效果如图所示6.点击确定按钮,完成CSV输入控件的配置7.配置唯一行(哈希值)控件 -> 进入唯一行(哈希值)界面8.点击获取按钮获取需要去.

2021-10-13 11:43:36 744

原创 kettle实现对不同类型的数据进行抽取操作

一:抽取CSV文件CSV_extract.CSV中的数据保存至数据库中的数据表CSV中.1.打开kettle的运行窗口 -> 点击新建 ->点击转换2.右侧对话框中找到表输出,点击输入->点击->>点击CSV文件输入3.上述相同位置,点击输出 -> 点击表输出 ->完成界面如图所示4.点击CSV文件输入控件 ->进入CSV文件输入界面 -> 点击图中的预览按钮 ->选择自己所要抽取的文件csv_extract.csv .

2021-10-07 13:46:32 2115

原创 kettle工具的基本使用(重点:作业和转换)

一:kettle的简介 1.Kettle概述 1) Kettle是国外免费的开源轻量级ETL工具,是基于Java语言开发的,在Windows.Linux,UNIX 系统上运行,且绿色不需安装,可用于各种数据库之间的连接。 2)Kettle工具主要有四个组件组成,分别是Spoon,Pan,Kitchen以及Carte组件,具体功能如 下: *Spoon为集成开发软件,用于构建作业和转换,执行或调试作业和转换,还可...

2021-09-17 19:02:09 5599

原创 数据清洗的概述

一:数据清洗的背景近年来,大数据技术掀起了计算机领域的-个新浪潮,无论是数据挖掘、数据分析、数据可视化.还是机器学习、人工智能,它们都绕不开“数据"这个主题。从统计学家到软件开发人员,再到图形设计师,越来越多的人对数据科学产生了兴趣。廉价的硬件、可靠的数据处理工具和数据可视化工具以及海量的数据这些资源使我们能够轻松地、精确地发现趋势、预测未来。由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。因

2021-09-11 17:47:37 1422 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除