ETL之kettle
文章平均质量分 79
wobushixuyuan
这个作者很懒,什么都没留下…
展开
-
Kettle学习之路(3)理解一些基本概念
Kettle包括了在ETL开发和部署阶段用到的多个程序,每个程序都有独立功能。 Spoon:集成开发环境。提供了一个图形化用户界面,用于创建/编辑作业或者转换,也可以用于执行/调试作业或者转换,也有性能监控功能。 Kitchen:作业的命令行运行程序,通过shell脚本来调用。 Pan:转换的命令行运行程序,和kitchen一样通过she原创 2017-03-20 11:15:16 · 1344 阅读 · 0 评论 -
Kettle学习之路(1)理解一些基本概念
基本概念:一、 BI:商业智能系统,也称DSS(决策支持系统)。二、 OLTP:独立事务系统,也称在线事务处理系统。对比: 指标 OLTP 数据仓库系统覆盖范围 单一业务处原创 2017-03-16 10:40:12 · 2112 阅读 · 0 评论 -
2017年3月21日kettle步骤概览--抽取
抽取:所有的数据抽取类的步骤都放在Input(输入)类别下,输入类的步骤,顾名思义就是从外部数据源抽取数据,把数据输入到Kettle的数据流中。一般来说准备要读取的数据(尤其是文件类数据)的功能,往往在作业里完成,实际读取数据才在转换着一层。一、处理文本文件总体来说文本文件分两类:1、分隔符文件:这种文件里,每个字段或列都由特定字符或制表符分隔。通常这类文件也称原创 2017-03-21 10:11:28 · 3039 阅读 · 0 评论 -
kettle步骤概览(5)--清洗校验
前边介绍了34个子程序关于清洗和校验的子系统包含四个:清洗、错误处理、审计维度、排重 Kettle里没有单一的数据清洗步骤,但有很多的步骤组合起来可以完成数据清洗的功能。数据清洗的工作从抽取数据时就开始了:很多输入步骤里都可以设置特定的数据格式,按照特定的数据格式来读取数据,尤其是日期和数值类型。一、转换目录下的步骤为清洗工作提供了很多不同的选项:原创 2017-03-22 11:01:19 · 16956 阅读 · 4 评论 -
Kettle学习之路(2)理解一些基本概念
一、 跳(hop): 转换里的步骤通过跳(hop)来连接,跳定义了一个单项通道,允许数据从一个步骤向另一个步骤流动。在kettle里,数据的单位是行,数据流就是数据行从一个步骤到另一个步骤的移动。数据流的另一个同义词就是记录流。 跳定义了步骤之间的数据通路。它实际上是两个步骤之间被称为行集的数据行缓存(行集的大小可以在转换的设置里定义)。当行集蛮力,向行集写数据的步原创 2017-03-17 10:03:13 · 3653 阅读 · 1 评论