kettle案例11-排序记录

参考《ETL数据整合与处理》--任务3.1

排序是对数据中心的无序记录,按照自然或客观规律,根据关键字段大小递增或递减的次序,对记录重新排列的过程。

为了得出学生的成绩排名,需要对“2019年11月月考数学成绩.xls”文件,使用【排序记录】组件,对学生的成绩从低到高排序。

 

 

 

 

 

参数名称

说明

步骤名称

表示排序组件名称,在单个转换工程中,名称必须唯一。默认值是【排序记录】组件名称

排序目录

表示排序时存放临时文件的目录,可以直接键盘设置,也可以单击【浏览(B)…】按钮,设置为计算机上已存在的目录。默认值是当前系统标准临时文件目录%%java.io.tmpdir%%

临时文件前缀

表示临时文件前缀名称,排序时使用临时文件,可以加快和方便排序。当行数超过指定的排序大小时候,系统将使用临时文件排序行。默认值为out

排序缓存大小

表示存放在内存的记录数,存储在内存中的记录越多,排序过程就越快。默认值为1000000

未使用内存限值(%)

表示未使用内存的百分比限值。排序时,如果发现可用的空闲内存少于指定的数字,系统将会将数据分页到磁盘。默认值为空

压缩临时文件

表示需要临时文件来完成排序时,是否压缩该临时文件。默认值为空

仅仅传递非重复的记录

表示是否启用仅向输出流传递唯一的记录。默认值为空

字段

表示参加排序的字段,使用一个【字段】表来设置字段的参数。有关排序字段参数的说明如下表所示

字段参数

说明

字段名称

指定排序的字段名称,可用多个字段进行组合排序。可以直接键盘输入,也可以单击输入框,从下拉框中选中输入流的字段,还可以点击图 3‑3所示的【获取字段】按钮,获取所有字段进行编辑,保留需要排序的关键字段,删除不参加排序的字段

升序

对指定的字段制订排序方向(升序/降序),选项有:是、否

大小写敏感

指定的排序时是否区分大小写,选项有:是、否

Sort base on current locale?

是否根据当前位置排序,选项有:是、否

Collator Strength

指定排序器强度,选项有:0123

Presorted?

是否进行预排序,选项有:是、否

执行结果:

 

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值