kettle案例六数据表关联--排序记录-记录集连接-过滤记录

数据仓库 专栏收录该内容
47 篇文章 18 订阅

如果我们清洗的数据是多个维度的,那么很有可能对数据进行关联得到一张最终表进行分析。
比如
回答集合的数据里有如下字段
id optionId user
包含了 谁 回答了哪个问题,选项是什么。

选项集合的数据里有如下字段
id question option

我们最终希望得到的数据集合是
id question option user

那么就需要对两个集合进行关联
新建流程如下:

排序记录

排序记录只需要指定排序字段和方向即可,其他临时目录可以使用默认目录。

记录集连接

记录集连接可以实现数据集合的关联,也分为内连接,左连接,右连接,外连接。
我们这里以用户回答为主表,则选择左连接即可。
连接字段就是集合一与集合二哪个字段相等时合并成一条记录。
这里是回答集合的optionId和选项集合的id

过滤记录

把两个集合连接关联起来之后我们发现有些脏数据存在,就是一些老的用户回答没有对应的问题和选项,那么这部分数据我们是不存入数据库的,则在入库之前需要对数据进行过滤。
新建过来记录流程如下:

填写过滤的条件即可。
我们这里判断条件是
option 不为空时 为true,然后把为true的数据传送到下一步MongoDB Output里。
如下:

  • 2
    点赞
  • 0
    评论
  • 7
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

<p class="sub-title" style="font-family: 'Helvetica Neue', Helvetica, 'Hiragino Sans GB', Arial, sans-serif; margin: 0px; padding: 0px; color: #313d54; font-size: 17px; font-weight: bold; line-height: 1; background-color: #ffffff;">学完本课程,您将掌握:</p> <ul class="profit-list sub-content clearfix2" style="font-family: 'Helvetica Neue', Helvetica, 'Hiragino Sans GB', Arial, sans-serif; margin: 30px 0px 45px; padding: 0px; list-style: none; font-size: 16px; color: #313d54; background-color: #ffffff;"> <li style="margin: 0px 20px 20px 0px; padding: 5px 18px 5px 44px; float: left; line-height: 27px; background: url('edu/center/css/course_detail/images/icon-duihao1.png') 17px center / 13px 11px no-repeat whitesmoke; border-radius: 6px;">PDI/Kettle数仓技术</li> <li style="margin: 0px 20px 20px 0px; padding: 5px 18px 5px 44px; float: left; line-height: 27px; background: url('edu/center/css/course_detail/images/icon-duihao1.png') 17px center / 13px 11px no-repeat whitesmoke; border-radius: 6px;">PDI/Kettle开源免费的ETL推送工具</li> <li style="margin: 0px 20px 20px 0px; padding: 5px 18px 5px 44px; float: left; line-height: 27px; background: url('edu/center/css/course_detail/images/icon-duihao1.png') 17px center / 13px 11px no-repeat whitesmoke; border-radius: 6px;">PDI/Kettle数据清洗</li> <li style="margin: 0px 20px 20px 0px; padding: 5px 18px 5px 44px; float: left; line-height: 27px; background: url('edu/center/css/course_detail/images/icon-duihao1.png') 17px center / 13px 11px no-repeat whitesmoke; border-radius: 6px;">PDI/Kettle数据抽取</li> <li style="margin: 0px 20px 20px 0px; padding: 5px 18px 5px 44px; float: left; line-height: 27px; background: url('edu/center/css/course_detail/images/icon-duihao1.png') 17px center / 13px 11px no-repeat whitesmoke; border-radius: 6px;">PDI/Kettle数据挖掘</li> <li style="margin: 0px 20px 20px 0px; padding: 5px 18px 5px 44px; float: left; line-height: 27px; background: url('edu/center/css/course_detail/images/icon-duihao1.png') 17px center / 13px 11px no-repeat whitesmoke; border-radius: 6px;">PDI/Kettle案例实战</li> <li style="margin: 0px 20px 20px 0px; padding: 5px 18px 5px 44px; float: left; line-height: 27px; background: url('edu/center/css/course_detail/images/icon-duihao1.png') 17px center / 13px 11px no-repeat whitesmoke; border-radius: 6px;">PDI/Kettle技巧</li> <li style="margin: 0px 20px 20px 0px; padding: 5px 18px 5px 44px; float: left; line-height: 27px; background: url('edu/center/css/course_detail/images/icon-duihao1.png') 17px center / 13px 11px no-repeat whitesmoke; border-radius: 6px;">PDI/Kettle9.1版本</li> <li style="margin: 0px 20px 20px 0px; padding: 5px 18px 5px 44px; float: left; line-height: 27px; background: url('edu/center/css/course_detail/images/icon-duihao1.png') 17px center / 13px 11px no-repeat whitesmoke; border-radius: 6px;">PDI/Kettle通用</li> <li style="margin: 0px 20px 20px 0px; padding: 5px 18px 5px 44px; float: left; line-height: 27px; background: url('edu/center/css/course_detail/images/icon-duihao1.png') 17px center / 13px 11px no-repeat whitesmoke; border-radius: 6px;">PDI/Kettle水壶技术</li> </ul> <p class="sub-title" style="font-family: 'Helvetica Neue', Helvetica, 'Hiragino Sans GB', Arial, sans-serif; margin: 0px; padding: 0px; color: #313d54; font-size: 17px; font-weight: bold; line-height: 1; background-color: #ffffff;">适合人群:</p> <p class="study_crow sub-content" style="font-family: 'Helvetica Neue', Helvetica, 'Hiragino Sans GB', Arial, sans-serif; margin: 24px 0px 45px; padding: 0px; font-size: 16px; color: #313d54; white-space: pre-line; word-break: break-all; background-color: #ffffff;">需要数据清洗和操作的IT信息化相关人员,IT相关从业人员,大数据工程师,数据库工程师及DBA,数据仓库ETL</p> <p class="sub-title" style="font-family: 'Helvetica Neue', Helvetica, 'Hiragino Sans GB', Arial, sans-serif; margin: 0px; padding: 0px; color: #313d54; font-size: 17px; font-weight: bold; line-height: 1; background-color: #ffffff;">学习计划:</p> <p class="study_plan sub-content" style="font-family: 'Helvetica Neue', Helvetica, 'Hiragino Sans GB', Arial, sans-serif; margin: 24px 0px 45px; padding: 0px; font-size: 16px; color: #313d54; white-space: pre-line; word-break: break-all; background-color: #ffffff;">利用碎片化的时间学习即可,每天学习一小时或3个课时即可达到效果;时间充足者,自由安排</p> <p class="sub-title" style="font-family: 'Helvetica Neue', Helvetica, 'Hiragino Sans GB', Arial, sans-serif; margin: 0px; padding: 0px; color: #313d54; font-size: 17px; font-weight: bold; line-height: 1; background-color: #ffffff;">课程目标:</p> <p class="course_target sub-content" style="font-family: 'Helvetica Neue', Helvetica, 'Hiragino Sans GB', Arial, sans-serif; margin: 24px 0px 45px; padding: 0px; font-size: 16px; color: #313d54; white-space: pre-line; word-break: break-all; background-color: #ffffff;">促使教育公平,打破教育壁垒,让ETL更加的大众化使用</p> <p class="course_target sub-content" style="font-family: 'Helvetica Neue', Helvetica, 'Hiragino Sans GB', Arial, sans-serif; margin: 24px 0px 45px; padding: 0px; font-size: 16px; color: #313d54; white-space: pre-line; word-break: break-all; background-color: #ffffff;"> </p> <p class="sub-title" style="font-family: 'Helvetica Neue', Helvetica, 'Hiragino Sans GB', Arial, sans-serif; margin: 0px; padding: 0px; color: #313d54; font-size: 17px; font-weight: bold; line-height: 1; background-color: #ffffff;">课程简介:</p> <div class="course_desc sub-content" style="font-family: 'Helvetica Neue', Helvetica, 'Hiragino Sans GB', Arial, sans-serif; margin: 24px 0px 0px; padding: 0px; font-size: 16px; color: #313d54; word-break: break-all; background-color: #ffffff;"> <p style="margin: 0px; padding: 0px;"><span style="font-family: 微软雅黑; margin: 0px; padding: 0px; color: #666666; font-size: 14px;">【可视化介绍】</span><br style="margin: 0px; padding: 0px;" /><span style="font-family: 微软雅黑; margin: 0px; padding: 0px; color: #666666; font-size: 14px;">       Kettle 是 PDI 以前的名称,PDI 的全称是Pentaho Data Integeration,Kettle 本意是水壶的意思,表达了数据流的含义。Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。</span><br style="margin: 0px; padding: 0px;" /><span style="font-family: 微软雅黑; margin: 0px; padding: 0px; color: #666666; font-size: 14px;">【软件版本】</span><br style="margin: 0px; padding: 0px;" /><span style="font-family: 微软雅黑; margin: 0px; padding: 0px; color: #666666; font-size: 14px;">     企业用的最多的Kettle9.x/8.x/7.x,本教程以最新Kettle 9.x进行教学</span><br style="margin: 0px; padding: 0px;" /><span style="font-family: 微软雅黑; margin: 0px; padding: 0px; color: #666666; font-size: 14px;">【授课方式】</span><br style="margin: 0px; padding: 0px;" /><span style="font-family: 微软雅黑; margin: 0px; padding: 0px; color: #666666; font-size: 14px;">    番茄教学法:以知识点为基准,进行独立课时讲解,课时之间低耦合,方便同学利用碎片化时间学习</span></p> <p style="margin: 0px; padding: 0px;"> </p> <p style="margin: 0px; padding: 0px;"><span style="font-family: 微软雅黑; margin: 0px; padding: 0px; color: #666666; font-size: 14px;"><img src="https://img-bss.csdnimg.cn/202101061300589266.png" alt="" /></span></p> <p style="margin: 0px; padding: 0px;"><span style="font-family: 微软雅黑; margin: 0px; padding: 0px; color: #666666; font-size: 14px;"><img src="https://img-bss.csdnimg.cn/202101061301334847.png" alt="" /></span></p> </div>
©️2021 CSDN 皮肤主题: Age of Ai 设计师:meimeiellie 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值