5.1.1 完全去重
完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。例如,现在有两个表格分别记录的不同年份的用户信息,现要求合并统计所有用户信息,发现合并后的表格存在完全重复的数据,为了便于后期更加方便地使用这些用户数据,通常情况下会对数据进行去重操作。
1.打开Kettle工具,创建转换
2.配置CSV文件输入控件
3.配置”唯一行(哈希值)”控件
4.运行转换并查看是否消除完全重复的数据
完全去重指的是消除完全重复的数据,这里提到的完全重复数据指的是数据表记录字段值完全一样的数据。例如,现在有两个表格分别记录的不同年份的用户信息,现要求合并统计所有用户信息,发现合并后的表格存在完全重复的数据,为了便于后期更加方便地使用这些用户数据,通常情况下会对数据进行去重操作。
1.打开Kettle工具,创建转换
2.配置CSV文件输入控件
3.配置”唯一行(哈希值)”控件
4.运行转换并查看是否消除完全重复的数据