ETL数据抽取---Apache Hop

下载Apache Hop

演示环境为:2.0.0版本 官网下载连接
下载

运行前准备

1.将下载的安装包解压
文件夹结构如下:
解压
2.将hop文件夹覆盖(或剪切)到其他路径
演示环境将该文件夹剪切至D:\Program Files (x86)文件夹下(也可以保留默认路径),hop中文件夹结构如下:
hop文件夹内容
3.添加数据库连接驱动包
演示环境为连接MySQL 8.0.*,故将mysql-connector-java-8.0.18.jar复制到D:\Program Files (x86)\hop\lib文件夹下。不添加会导致无法连接数据库。
添加jar包

mysql-connector-java-8.0.18.jar,提取码:sv81

未添加驱动会提示以下报错信息

未添加驱动

4.Hop连接数据库前准备
需将数据库默认时区进行修改:

-- 修改前查询
SHOW VARIABLES LIKE '%time_zone%';

time_zone

-- 修改后查询
set GLOBAL time_zone = '+8:00';
set time_zone = '+8:00';
SHOW VARIABLES LIKE '%time_zone%';

修改后

为避免重启数据库后,参数失效,建议在my.ini[mysqld]中,添加default-time_zone = ‘+8:00’ 参数,手动重启MySQL服务。

未修改默认时区会提示以下报错信息

数据库时间格式异常

运行使用

1.运行Hop
在D:\Program Files (x86)\hop文件夹下,双击hop-gui.bat启动Hop。
运行
使用过程中,命令行窗口不能关闭。

2.数据库连接
2.1 点击左上角“+”号,选择“Relational Database Connection”进入数据库连接界面
新建数据库连接
2.2 参照下图输入数据库连接相关信息
数据库连接参数

参考JDBC URL信息:jdbc:mysql://127.0.0.1:3306/v81?autoReconnection=true&useSSL=false

2.3 测试连接及保存当前数据库连接

保存连接
2.4 保存完成后,在左侧“Relational Database Connection”中,会出现新建的数据库连接信息

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
ETL是英文Extract、Transform、Load的缩写,它是数据仓库建设中最基础的环节之一,主要用于数据抽取、清洗、转换和加载。ETL的实现可以将来自不同数据源的数据进行统一处理和分析。 实现数据抽取与转换的过程通常包括以下步骤: 1. 抽取数据:从不同的数据源中提取需要的数据,如关系型数据库、文件、Web服务、API等。 2. 清洗数据:对抽取数据进行清洗,如去除重复数据、空数据数据格式转换、数据合并等,以确保数据的准确性和完整性。 3. 转换数据:对清洗过的数据进行转换操作,如数据结构的转换、数据计算、数据聚合等。 这一步的目的是为了将不同数据源的数据统一到一个数据模式下,方便数据分析和处理。 4. 加载数据:将转换后的数据加载到数据仓库中,如数据集市、数据仓库等,以供后续的分析和应用。 ETL的实现需要依赖一些工具和技术,如数据仓库工具、ETL工具、ETL脚本、SQL等。目前比较流行的ETL工具有Informatica、IBM DataStage、Microsoft SQL Server Integration Services等。使用这些工具可以实现大规模数据ETL处理和管理,提高数据处理效率和数据质量。 ETL实现数据抽取与转换是数据仓库建设的重要一步,通过ETL的清洗和转换操作,可以将来自不同数据源的数据整合到一个数据模型下,提高数据的一致性和准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值