1.通过kettle工具,对文件merge.csv进行完全去重。
具体步骤如下所示:
(1)数据准备。
(2)打开Kettle工具,创建转换
打开Kettle工具,创建一个新的转换(可以默认转换1),添加“CSV文件输入”控件,“唯一行(哈希值)”控件,具体如图1.1所示。
图1.1
(3)配置“CSV文件输入”控件
双击“CSV文件输入”控件,进入此控件界面中,首先单击“浏览”按钮,选择要完全去重处理的CSV文件merge.csv;接着单击“获取字段"按钮,Kettle会自动检索CSV文件;然后单击”预览“按钮,查看CSV文件merge.csv的数据是否加载到CSV文件输入流中;最后单击”关闭“-”确定“按钮,完成”CSV文件输入“的配置,具体如图1.2和图1.3所示。
图1.2
图1.3
(4)配置“唯一行(哈希值)”控件
双击“唯一行(哈希值)”控件,进入此控件界面中,首先在“用来比较的字段”处添加