笔记
文章平均质量分 77
LTILT
此人很懒
展开
-
《数据清洗》第五章操作实例
案例一介绍:通过Kettle工具,消除CSV文件merge.csv中完全重复的数据。1.打开Kettle工具,创建转换通过使用Kettle工具,创建一个转换repeat_transform,并添加“CSV文件输入”控件、“唯一行(哈希值)”控件以及Hop跳连接线,具体如图所示。2.配置CSV文件输入控件双击“CSV文件输入”控件,进入“CSV文件输入”配置界面,具体如图所示。3.配置”唯一行(哈希值)”控件双击“唯一行(哈希值)”控件,进入“唯一行(哈希值)”配置..原创 2021-10-14 21:36:25 · 406 阅读 · 0 评论 -
《数据清洗》第三章 Kettle工具的基本使用 笔记
Kettle简介Kettle是一款国内免费开源的轻量级ETL工具,是基于Java语言开发的,可以在Windows、Linux、UNIX系统上运行,并且是绿色无需安装的,可用于各种数据库之间的数据的迁移。Kettle工具主要由4个组件组成,分别是Spoon、Pan、Kitchen及Carte组件。Kettle有7点设计原则,分别是:1.易于开发2.避免自定义开发3.所有功能都能通过用户界面完成4.没有命名限制5.透明6.灵活的数据通道7.只映射需要映射的字段...原创 2021-09-22 21:28:08 · 1061 阅读 · 0 评论 -
《数据清洗》 第一章 数据清洗概述 总结
1.1数据清洗的背景1.1.1数据质量概述数据质量是指在业务环境下,数据符合数据消费者的使用目的,能满足业务场景具体需求的程度。在不同的业务场景中,数据消费者对数据质量有各自不同的观点。从适用性角度来说,数据质量是一个相对的概念。不同的决策者对数据质量的高低要求也是不同的。对于一个无关的数据,即使质量很高,对决策也起不到任何作用。数据质量的显著特点如下:1)“业务需求”会随时间变化,数据质量也会随时间发生变化。2)数据质量可以借助信息系统度量,但独立于信息系统存在。’3)数据质量存在于数据的整个原创 2021-09-11 23:48:46 · 3757 阅读 · 0 评论