数据迁移
文章平均质量分 96
墨尔本、晴
软件测试工程师
展开
-
[数仓]十六、数仓同步工具(DataX)-- 离线(v6.0)
通常情况下,离线数据同步任务需要每日定时重复执行,故HDFS上的目标路径通常会包含一层日期,以对每日同步的数据加以区分,也就是说每日同步数据的目标路径不是固定不变的,因此DataX配置文件中HDFS Writer的path参数的值应该是动态的。为实现这一效果,就需要使用DataX传参的功能。DataX的使用十分简单,用户只需根据自己同步数据的数据源和目的地选择相应的Reader和Writer,并将Reader和Writer的信息配置在一个json文件中,然后执行如下命令提交数据同步任务即可。原创 2024-08-12 02:37:03 · 752 阅读 · 0 评论 -
[数仓]十五、数仓数据同步策略 -- 离线(v6.0)
按照规划,该Flume需将Kafka中topic_log的数据发往HDFS。并且对每天产生的用户行为日志进行区分,将不同天的数据发往HDFS不同天的路径。此处选择KafkaSource、FileChannel、HDFSSink。原创 2024-08-12 02:06:47 · 729 阅读 · 0 评论 -
[数仓]十四、数仓同步工具(Maxwell)-- 离线(v6.0)
Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控MySQL数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。原创 2024-08-12 01:35:48 · 848 阅读 · 0 评论