自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 《数据清洗》8.3.7和8.3.8

8.3.7加载演员数据至演员维度表1、打开Kettle工具,创建转换2、配置“表输入”控件进入“表输入”配置界面,单击“新建”按钮,配置数据库连接,配置完成后单击“确认”按钮在SQL框中编辑SQL语句,而后单击“预览”按钮单击“关闭”→“确定”按钮完成配置3、配置“表输入2”控件进入“表输入”界面,单击“新建”按钮,配置数据库连接在SQL框中编写SQL语句单击“确定”按钮完成配置4、配制“插入/更新”控件进入“插入/更新”界面,单...

2021-11-22 23:17:01 674

原创 《数据清洗》8.3.5和8.3.6

8.3.5加载用户数据至用户维度表1、打开Kettle工具,创建转换2、配置“表输入”控件双击“表输入”控件,进入“表输入”配置界面,单击“新建”按钮,配置数据库连接,配置完成后单击“确认”按钮。MySQL数据库连接的配置,如图所示。在SQL框中编写SQL语句,用于获取字段custmor_last_updata中的最大值,将该值替换为1970-01-01 00:00:00并赋值给临时字段max_dim_customer_last_updata,点击预览查看...

2021-11-22 21:57:31 490

原创 《数据清洗》第八章综合案例(一)

8.3.2加载日期数据至日期维度表1、打开kettle工具,创建转换、2、配置“生成记录”控件双击生成记录界面,在“限制”处添加生成的日期,默认为10,这里改为3650,即生成10年日期(10*365);在“字段”框添加字段language(语言),country_code(国家码),initial_date(初始化日期),对生成的日期进行初始化,如图点击“确定”完成配置3、配置“增加序列”控件在“值的名称”处valuename改为DaySequence,即增加一列日期字段,用.

2021-11-22 10:59:19 722

原创 《数据清洗》第七章课后操作题

题目一实现数据全量加载1、数据准备2、打开kettle工具,创建转换3、配置“执行SQL脚本”控件进入“执行SQL语句”界面单击“新建”按钮,配置数据库连接,配置完成后单击“确认”按钮在SQL框中编写删除数据表full_target中数据的SQL语句4、配置“表输入”控件在SQL框中编写查询full_source数据的SQL语句,然后单击“预览”按钮,查看是否抽取成功5、配置“表输出”控件进入“表输出”界面,单击“浏览”按钮,...

2021-11-14 18:01:57 592

原创 《ETL数据整合与处理》七个实例

实例一 Excel输入使用Ctrl+N快捷键,创建【Excel输入】转换工程,单击【核心对象】选项卡,展开【输入】对象,选中【Excel输入】组件,并拖曳拖曳到右边工作区中,如图所示。设置参数浏览导入Excel文件。单击【浏览(B)…】按钮,在计算机上浏览并导入“物理成绩.xls”文件,如图所示。添加并编辑Excel文件。单击【增加】按钮,将浏览导入至【文件或目录】输入框中的“E:\data\物理成绩.xls”文件,添加至【选中的文件】表中,如图所示。查看被选中的文件名称。单击.

2021-11-09 16:19:12 1000

原创 《数据清洗》第六章 数据转换

一、数据粒度的转换1、数据准备将这个txt文件2、打开kettle工具,创建转换3、配置文本文件输入控件进入“文本文件输入”界面,单击“浏览”按钮,选择要抽取的personnel_data.txt文件,单击“增加”按钮,将要抽取的personnel_data.txt文件添加到generalization转换中单击“内容”选项卡,在分隔符处清除默认分隔符“;”,单击“Insert TAB”按钮,在分隔符处插入一个制表符;取消勾选“头部”复选框单击“字段”选项卡,根据pe..

2021-11-04 11:35:29 742

原创 《数据清洗》数据的清洗与检验

实例一对文件merge.csv进行完全去重实例二对文件people_survey.txt中的缺失值进行填充

2021-10-14 13:16:31 313

原创 《数据清洗》数据抽取

实例一抽取CSV文件csv_extract.csv中的数据保存至数据库extract中的数据表csv中1、数据准备2、实例二抽取JSON文件json_extract.js中的数据保存至数据库extract中的数据表json中

2021-10-11 22:22:31 390

原创 《数据清洗》:用Kettle工具实现转换和作业

一个数据抽取过程主要包括创建一个作业,并且每个作业可以包括多个转换操作。此数据抽取过程可通过Kettle工具完成,也可以通过编写程序调用的方式实现。 Kettle工具的执行分为两个层次,即转换和作业,这两个层次最主要的区别在于数据传递和执行方式。一、转换转换是ETL解决方案中重要的组成部分之一,主要用于数据的抽取、转换以及加载等操作,其本质是一组图形化的数据转换配置的逻辑结构。一个转换包括一个或多个步骤,转换中的步骤是通过跳连接的。在Kettle中,数据的单位是行,数据流就是数据行从一个..

2021-09-27 11:22:44 1845

原创 《数据清洗》第一章知识总结

标题:数据清洗概述1.1背景目前的海量数据来源广泛,类型繁杂。由此会出现不完整、重复、错误等问题。因此数据清洗是大数据分析和应用过程中的关键环节。1)数据质量数据质量是一个相对的概念,是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。2)数据质量的评价指标准确性、完整性、适用性。其中适用性是评价数据质量的重要标准。3)数据质量的问题分类数据质量可以分为两类:基于数据源的“脏”数据分类 基于清洗方式的“脏”数据分类...

2021-09-12 17:03:51 844 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除