kettle案例12-去除重复记录

参考《ETL数据整合与处理》--任务3.2

由于输入或其他错误,数据文件中可能出现两条或多条数据完全相同的记录,这些相同的记录称为重复记录。重复记录属于“脏数据”,会造成数据统计和分析不正确,必须清洗掉重复记录。

由于在“期考成绩.xls”文件中,发现存在序号不同,但是学号、各科考试成绩完全相同的记录,所以需要使用【去除重复记录】控件,去除这些重复的数据。

 双击排序记录组件,对“学号”字段按照升序进行排序

 

参数名称

说明

步骤名称

表示去除重复组件名称,在单个转换工程中,名称必须唯一。默认值是【去除重复记录】的组件名称

增加计数器到输出

表示选择此选项时,计数器计算重复记录的条数,并将计数器字段添加至输出流中。选择后才能设置【计数器字段】参数名称。默认值为空

计数器字段

表示对重复记录计数的计数器字段名称,【增加计数器到输出】勾选时才能设置。默认值为空

重定向重复记录

表示选择此选项时,将重复的记录作为错误处理并将其重定向到组件的错误流。如果不选择,重复的记录将被删除。选择后才能编辑【错误描述】内容,内容是指当组件检测到重复记录时显示的错误处理描述。默认值为空

错误描述

表示对出现重复记录现象的内容描述,【重定向重复记录】为√时才能设置。默认值为空

用来比较的字段

表示用来比较是否重复记录的字段,用来比较的字段可以有多个,用一个表来分行设置不同的字段参数,字段参数如下

1. 字段名称:用来比较的字段,默认值为空
2. 忽略大小写:比较字段是否区分大小写,选项有 Y N ,默认值为空

执行结果:

如果勾选了如下两项:

 

 

 

Kettle中的"排序记录"步骤主要用于对字段进行排序。一般情况下,它会与"去除重复记录"和"记录集连接"步骤一起使用。在配置参数中,你需要选择要排序的字段以及排序的方式(升序或降序)。接下来,将结果数据与原始数据进行对比,你会发现无序数据已经按照你选择的排序方式进行了排序。 另外,Kettle中的"记录集连接"步骤可以用于实现数据集合的关联,包括内连接、左连接、右连接和外连接等。在这里,我们以用户回答为主表,并选择左连接。连接字段是用来判断哪个字段在两个集合之间相等时将记录合并在一起。在这个例子中,连接字段是回答集合的optionId和选项集合的id。 希望这可以帮助你理解Kettle中的"排序记录"和"记录集连接"步骤的使用。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Kettle中“排序记录”的使用](https://blog.csdn.net/AnameJL/article/details/119713337)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [kettle案例六数据表关联--排序记录-记录集连接-过滤记录](https://blog.csdn.net/q383965374/article/details/78962029)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [kettle转换实践(一)-排序记录,记录集连接,过滤记录](https://blog.csdn.net/kone0611/article/details/90575944)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值