- 博客(3)
- 资源 (1)
- 收藏
- 关注
原创 Kettle构建Hadoop ETL实践(五):数据抽取
目录一、Kettle数据抽取概览1. 文件抽取(1)处理文本文件(2)处理XML文件2. 数据库抽取二、变化数据捕获1. 基于源数据的CDC2. 基于触发器的CDC3. 基于快照的CDC4. 基于日志的CDC三、使用Sqoop抽取数据1. Sqoop简介2. 使用Sqoop抽取数据3. Sqoop优化(1)调整Sqoop命令行参数(2)调整数据库四、小结 本篇介绍如何利用Kettle提供的转换步骤和作业项实现Hadoop数...
2020-09-29 14:37:17 5592 1
原创 Kettle构建Hadoop ETL实践(四):建立ETL示例模型
目录一、业务场景1. 操作型数据源2. 销售订单数据仓库模型设计二、HIVE相关配置1. 选择文件格式2. 选择表类型3. 支持行级更新4. Hive事务支持的限制三、建立数据库表1. 源数据库表2. RDS库表3. TDS库表四、装载日期维度数据五、小节 从本篇开始,介绍使用Kettle实现Hadoop数据仓库的ETL过程。我们会引入一个典型的订单业务场景作为示例,说明多维模型及其相关ETL技术在Kettle上的具体实现。本篇首先介...
2020-09-04 18:03:37 2979 1
原创 Kettle构建Hadoop ETL实践(三):Kettle对Hadoop的支持
目录一、Hadoop相关的步骤与作业项二、连接Hadoop1. 连接Hadoop集群(1)开始前准备(2)配置步骤2. 连接Hive3. 连接Impala4. 建立MySQL数据库连接三、导入导出Hadoop集群数据1. 向HDFS导入数据2. 向Hive导入数据3. 从HDFS抽取数据到MySQL4. 从Hive抽取数据到MySQL四、执行HiveQL语句五、执行MapReduce1. 生成聚合数据集(1)准备文件与目录(2)建立一个
2020-09-01 15:26:57 7261 13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人