数据清洗
文章平均质量分 65
数据清洗&数据治理&数据仓库&DAMA考试等;
Sun_Sherry
这个作者很懒,什么都没留下…
展开
-
数据清洗:函数依赖及其发现算法(附Python代码)
最经典的函数依赖发现算法为TANE算法,其具体原理及Python代码可以查看参考文献1、2、3。一个函数依赖(Functional Dependency)关于这个算法我也有些内容没有完全弄懂。,那么这个函数依赖在关系。,满足一下条件:如果。原创 2022-12-17 13:59:12 · 923 阅读 · 5 评论 -
数据清洗:真值发现TruthFinder算法(附Python代码)
本篇博客主要介绍数据清洗中的真值发现问题及其经典求解算法TruthFinder的原理。原创 2022-10-30 20:47:47 · 2780 阅读 · 1 评论 -
数据清洗:相似重复记录检测算法SNM及其Python实现
之所以会存在重复记录,是因为在进行数据获取或数据存储的过程中,相同数据产生了不同的表现形式,比如:同一个单词的拼写错误、印刷错误、字符格式不统一、字符缺失等。实际数据库中可能存在多对互为相似重复的记录,它们的存在降低了数据的质量,可能会妨碍系统的正常运行,甚至会影响企业信息管理系统决策的正确性。本实验采用的数据是由第三方的数据生成器“febrl"生成的,”febrl"生成的数据的来源是澳大利亚某卫生部门的数据库。,他们的内容相同或者相似,且都对应着同一个现实实体,则记录对。原创 2022-09-16 17:58:41 · 1847 阅读 · 1 评论 -
Kettle:执行SQL脚本
【执行SQL脚本】可以允许以以下两种方式来使用:在转换的开始阶段,执行一次SQL脚本 对传入该步骤的每一行数据执行一次SQL脚本假设数据库表full_sou在rce和full_target中的数据如图1:图1创建只有一个【执行SQL脚本】操作的转化,其配置如图2。运行该转换可以将这两个表一起清空(图3)。图2图3除了上述这种方法之外,也可以使用转换(图4),其中【自定义常量】和【执行SQL脚本】的配置图5和图6:图4图5图6另外在【执行SQL脚本...原创 2020-11-17 23:09:50 · 11030 阅读 · 2 评论 -
Kettle: 维度查询/更新
1.缓慢变化维原创 2020-10-25 16:27:55 · 4742 阅读 · 7 评论 -
Kettle:连接类转换
Kettle中的连接类转换主要包括以下几种:原创 2020-09-20 15:33:21 · 764 阅读 · 0 评论 -
Kettle: 行转列与列转行
1. 行转列原创 2020-09-19 23:53:07 · 6863 阅读 · 1 评论 -
Kettle: JavaScript代码中的兼容模式
Kettle中的JavaScript中有个可选项【兼容模式】。官方资料是说,选了【兼容模式】之后,使用的是JavaScript 2.5引擎,如果不选该选项,则使用的是JavaScript 3.0引擎(由于对JavaScript了解的不是特别多,所以这两个版本的JavaScript的区别也不太清楚)。本来在使用这个转换时,都是默认勾选【兼容模式】的,但在某些情况下反而会导致错误。创建如下转换任务:其中,【表输入】中的配置如下:这里需要先来关注一下country表中三个字段的数据类型:.原创 2020-09-06 23:06:41 · 627 阅读 · 0 评论 -
Kettle: 字段拆分类操作
1. 拆分字段原创 2020-08-30 15:19:57 · 4521 阅读 · 0 评论 -
Kettle: 数据库查询/数据库连接
1. 数据库查询2. 数据库连接原创 2020-08-30 13:20:31 · 5096 阅读 · 0 评论 -
Kettle:数据同步
数据同步原创 2020-08-19 21:34:31 · 2645 阅读 · 0 评论 -
如何解决Kettle读取txt文件时出现的中文乱码问题?
使用Kettle的【文本文件输入】读取txt文件时,其中的两个中文字段无法正确识别,其预览效果如下:出现中文乱码自然想到是文件编码的问题,该txt文件的编码方式为:UTF-8将该文件的编码方式改为"ANSI"之后(点击【文件】->【另存为】,更改编码方式,然后【保存】即可)重新运行转换步骤,中文数据就可以正常读出来了,其结果如下:...原创 2020-08-18 20:13:46 · 2700 阅读 · 2 评论 -
Kettle:生成记录和增加序列
1.生成记录原创 2020-08-18 16:05:04 · 6337 阅读 · 0 评论 -
Kettle:与值相关的转换操作
1.替换NULL值原创 2020-08-30 09:37:03 · 847 阅读 · 0 评论 -
Kettle: 合并记录
haha原创 2020-08-12 20:52:00 · 7896 阅读 · 0 评论 -
Kettle: 插入/更新、表输出及表输入
1. 插入/更新按照官方资料说明,插入/更新实现的功能只有两个:依据查询关键字段,将未被发现的行记录插入到表中。 如果行记录在表中被找到,则比较需更新的字段,若更新字段不一致,则进行更新操作。在MySQL中构建连个表personal_a和personal_b,其创建语句及原始数据如下。使用Kettle将personal_a中的数据插入更新到personal_b中。create table `personal_a` ( `id` varchar (60), `surname` varch原创 2020-08-07 17:51:09 · 16236 阅读 · 0 评论