自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 演员维度表和电影维度表

一、加载演员数据至演员维度表 1.打开Kettle工具,创建转换: 2.配置表输入控件: 预览数据: 3.配置表输入2控件: 预览数据: 4.配置插入/更新控件: 5.运行转换: 6.查看数据表dim_actor中的数据:二、加载电影数据至电影维度表 1.打开Kettle工具,创建转换: 2.配置表输入控件: 预览数据: 3.配置表输入2控件: 4.配置数据库查询控件: 5.配置数据库查询2控件: 6.配置值映射控件: ...

2021-11-11 20:44:02 348

原创 加载用户数据至用户维度表,加载商店数据至商店维度表

一、加载用户数据至用户维度表 1.打开Kettle工具,创建转换: 使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。 2、配置表输入控件: 在SQL框中编写用于获取字段customer_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_customer_last_update;单击“预览”按钮,查看临

2021-11-11 11:52:52 1287 2

原创 数据清洗第八章(学习笔记)

一、加载日期数据至日期维度表 1.打开kettle创建转换,添加“生成记录”,“增加序列”,“JavaScript代码”,“表输出”: 2.配置“生成记录”控件。双击进入控件的配置,按下图配置: 3.配置“增加序列”,双击进入该控件进行配置。“值的名称”处改为DaySequenc。“起始值”改为0,如图所示: 4.双击进入“JavaScrip代码”,勾选“兼容模式?”,输入相应代码: 点击“获取变量”: 5.双击进入“表输出” 控件。先连接数据库然后选择输出的表,然后输入映射匹配..

2021-11-05 15:32:35 228

原创 Excel输入,生成记录,生成随机数,获取系统信息,排序记录,去除重复记录,替换NULL值。

一、Excel输入: 1、创建一个转换: 2、配置“Excel输入”控件; 导入文件: 查看被选中的文件名称: 单击工作表选项卡,获取工作表名称并移到你的选择一栏: 设置选中的工作表参数: 内容选项卡: 错误处理选项卡: 其他输出字段选项卡: 预览数据: 3、执行转换: 二、生成记录: 1、创建一个转换: 2、设置生成记录组件参数; 设置字段参数: 预览数据: 3、执行转换: 三、生成随机数; 1、创建一个转换:...

2021-10-28 15:19:07 375

原创 全量加载:

假设有两张数据表,分别为full_source和full_target,其中full_source为源数据表,full_target为目标数据表。通过kettle工具将数据表full_source中的数据全量加载到数据表full_target中。 1、打开kettle工具,创建转换; 2、配置“执行SQL脚本”控件; 3、配置“表输入控件”; 4、配置“表输出”控件; 5、运行转换full_load; 执行结果: 6、通过SQLyog工具,查看数据是否成功加载到f...

2021-10-28 12:15:53 196

原创 一、对文本文件进行数据粒度转换,即将文本文件personnel_data.txt中字段household_register的数据统一成省份,并且输出到文本文档personnel_data_new.tx

1、创建如图所示的转换 2、配置“文本文件输入”控件 双击“文本文件输入”控件进入其配置界面,单击“浏览”选择需要进行数据粒度转换的文件personnel_data.txt文件,单击“增加”将该文件加入“选中的文件”中。 单击“内容”,删除“分隔符”处的;,单击一次【Insert TAB】,并取消头部复选框里的√,效果如下图所示: 单击“字段”,手动输入文件中的字段名称并选择去除空字符串的方式,效果如下图: 点击“预览记录”,可观察文本文件中的数据是否加载到文本文件输入流中:...

2021-10-21 21:48:12 871

原创 通过kettle工具,实现以下功能:(1)对文件merge.csv进行完全去重。(2)对文件people_survey.txt中的缺失值进行填充。

(1)完全去重 1、数据准备; 2、打开kettle工具,新建转换,如图1所示: 图1 3、配置“csv文件输入”控件; 双击“csv文件输入”控件,进入“csv文件输入”界面,单击“浏览”按钮,选择要进行完全去重处理的csv文件merge.csv,单击“获取字段”按钮,Kettle会自动检索csv文件,并对文件中的字段、类型、格式、长度、精度等属性进行分析,具体如图2所示: 图2 在图2中单击“预览”按钮,查看csv文件merge.csv的数据是否加载到csv文件输入流中,具体效..

2021-10-12 20:54:20 425

原创 通过Kettle工具,实现以下功能:

(1)抽取CSV文件csv_extract.csv中的数据保存至数据库extract中的数据表csv中; 一、打开kettle工具,创建图1所示的转换: 图1 二、配置“csv文件输入”控件: 图2 获取字段: 图3 预览数据: 图图 图4 三、配置“表输出”控件: 图5 连接数据库: 图6 图7(数据库连接成功) 输入字段映射: 图8 四、运行csv_extract转换: 图9 查看执行结果: 图10 通过SQLyog工具查...

2021-10-02 18:38:21 220

原创 数据清洗(黑马程序员)日常学习笔记——Kettle基础概念

一、Kettle转换 定义:转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换中的步骤是通过“跳”连接的。跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle中,数据的单位是行,数据流就是数据行及一个步骤到另-个步骤的移动。 例: 图一 图一是一个简单的转换例子 创建转换的步骤: 1.双击Ket...

2021-09-16 21:34:04 1046

原创 数据清洗(黑马程序员)——第一章学习笔记

1.1数据清洗的背景 近年来,大数据技术掀起了计算机领域的一个新浪潮,无论是数据挖掘、数据分析、数据可视化,还是机器学习、人工智能,它们都绕不开“数据”这个主题。由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。本章将针对数据清洗的相关知识进行讲解。 1.1.1数据质量概述 定义:数据质量是指在业务环境下,数据符...

2021-09-10 21:32:29 765

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除