自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 演员维度表和电影维度表

一、加载演员数据至演员维度表1.打开Kettle工具,创建转换:2.配置表输入控件:预览数据:3.配置表输入2控件:预览数据:4.配置插入/更新控件:5.运行转换:6.查看数据表dim_actor中的数据:二、加载电影数据至电影维度表1.打开Kettle工具,创建转换:2.配置表输入控件:预览数据:3.配置表输入2控件:4.配置数据库查询控件:5.配置数据库查询2控件:6.配置值映射控件:...

2021-11-11 20:44:02 290

原创 加载用户数据至用户维度表,加载商店数据至商店维度表

一、加载用户数据至用户维度表1.打开Kettle工具,创建转换:使用Kettle工具,创建一个转换load_dim_customer,并添加表输入控件、映射控件、字段选择控件、值映射控件、维度查询/更新控件以及Hop跳连接线,具体如图所示。2、配置表输入控件:在SQL框中编写用于获取字段customer_last_update中的最大值,将该值替换为”1970-01-01 00:00:00”并赋值给临时字段max_dim_customer_last_update;单击“预览”按钮,查看临

2021-11-11 11:52:52 1105 2

原创 数据清洗第八章(学习笔记)

一、加载日期数据至日期维度表1.打开kettle创建转换,添加“生成记录”,“增加序列”,“JavaScript代码”,“表输出”:2.配置“生成记录”控件。双击进入控件的配置,按下图配置:3.配置“增加序列”,双击进入该控件进行配置。“值的名称”处改为DaySequenc。“起始值”改为0,如图所示:4.双击进入“JavaScrip代码”,勾选“兼容模式?”,输入相应代码:点击“获取变量”:5.双击进入“表输出” 控件。先连接数据库然后选择输出的表,然后输入映射匹配..

2021-11-05 15:32:35 115

原创 Excel输入,生成记录,生成随机数,获取系统信息,排序记录,去除重复记录,替换NULL值。

一、Excel输入:1、创建一个转换:2、配置“Excel输入”控件;导入文件:查看被选中的文件名称:单击工作表选项卡,获取工作表名称并移到你的选择一栏:设置选中的工作表参数:内容选项卡:错误处理选项卡:其他输出字段选项卡:预览数据:3、执行转换:二、生成记录:1、创建一个转换:2、设置生成记录组件参数;设置字段参数:预览数据:3、执行转换:三、生成随机数;1、创建一个转换:...

2021-10-28 15:19:07 247

原创 全量加载:

假设有两张数据表,分别为full_source和full_target,其中full_source为源数据表,full_target为目标数据表。通过kettle工具将数据表full_source中的数据全量加载到数据表full_target中。1、打开kettle工具,创建转换;2、配置“执行SQL脚本”控件;3、配置“表输入控件”;4、配置“表输出”控件;5、运行转换full_load;执行结果:6、通过SQLyog工具,查看数据是否成功加载到f...

2021-10-28 12:15:53 115

原创 一、对文本文件进行数据粒度转换,即将文本文件personnel_data.txt中字段household_register的数据统一成省份,并且输出到文本文档personnel_data_new.tx

1、创建如图所示的转换2、配置“文本文件输入”控件双击“文本文件输入”控件进入其配置界面,单击“浏览”选择需要进行数据粒度转换的文件personnel_data.txt文件,单击“增加”将该文件加入“选中的文件”中。单击“内容”,删除“分隔符”处的;,单击一次【Insert TAB】,并取消头部复选框里的√,效果如下图所示:单击“字段”,手动输入文件中的字段名称并选择去除空字符串的方式,效果如下图:点击“预览记录”,可观察文本文件中的数据是否加载到文本文件输入流中:...

2021-10-21 21:48:12 523

原创 通过kettle工具,实现以下功能:(1)对文件merge.csv进行完全去重。(2)对文件people_survey.txt中的缺失值进行填充。

(1)完全去重1、数据准备;2、打开kettle工具,新建转换,如图1所示:图13、配置“csv文件输入”控件;双击“csv文件输入”控件,进入“csv文件输入”界面,单击“浏览”按钮,选择要进行完全去重处理的csv文件merge.csv,单击“获取字段”按钮,Kettle会自动检索csv文件,并对文件中的字段、类型、格式、长度、精度等属性进行分析,具体如图2所示:图2在图2中单击“预览”按钮,查看csv文件merge.csv的数据是否加载到csv文件输入流中,具体效..

2021-10-12 20:54:20 289

原创 通过Kettle工具,实现以下功能:

(1)抽取CSV文件csv_extract.csv中的数据保存至数据库extract中的数据表csv中;一、打开kettle工具,创建图1所示的转换:图1二、配置“csv文件输入”控件:图2获取字段:图3预览数据:图图图4三、配置“表输出”控件:图5连接数据库:图6图7(数据库连接成功)输入字段映射:图8四、运行csv_extract转换:图9查看执行结果:图10通过SQLyog工具查...

2021-10-02 18:38:21 157

原创 数据清洗(黑马程序员)日常学习笔记——Kettle基础概念

一、Kettle转换定义:转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,如读取文件、过滤输出行、数据清洗或将数据加载到数据库中等步骤。转换中的步骤是通过“跳”连接的。跳定义了一个单向通道,允许数据从一个步骤向另一个步骤流动。在Kettle中,数据的单位是行,数据流就是数据行及一个步骤到另-个步骤的移动。例:图一图一是一个简单的转换例子创建转换的步骤:1.双击Ket...

2021-09-16 21:34:04 811

原创 数据清洗(黑马程序员)——第一章学习笔记

1.1数据清洗的背景 近年来,大数据技术掀起了计算机领域的一个新浪潮,无论是数据挖掘、数据分析、数据可视化,还是机器学习、人工智能,它们都绕不开“数据”这个主题。由于海量数据的来源是广泛的,数据类型也是多而繁杂的,因此数据中会夹杂着不完整、重复以及错误的数据,如果直接使用这些原始数据,会严重影响数据决策的准确性和效率。因此,对原始数据进行有效的清洗是大数据分析和应用过程中的关键环节。本章将针对数据清洗的相关知识进行讲解。1.1.1数据质量概述定义:数据质量是指在业务环境下,数据符...

2021-09-10 21:32:29 573

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除