hdata datax交流总结

最新推荐文章于 2024-08-10 11:42:01 发布

清远_zlm

最新推荐文章于 2024-08-10 11:42:01 发布

阅读量4.7k

点赞数 1

分类专栏：互联网大数据文章标签：技术阿里云数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zlm838687/article/details/74781522

版权

本文是关于与阿里云团队关于DataX数据同步的交流总结，涉及内容包括分片策略、流控机制、开发平台特性以及未来hdata的优化方向。DataX支持单机和集群模式，分片基于主键切分，流控算法避免尖峰，而hdata计划引入线程级重试和容忍错误百分比功能。

摘要由CSDN通过智能技术生成

hdata datax交流总结

今天和阿里云的同学就数据同步做了简要的交流，下面就交流的内容做一个总结

分片相关

datax目前可以支持单机(standalone)和集群模式(cluster).目前开源的是单机版本。无论是单机版本还集群版本，分片都是通过datax进行。集群模式会把分片包装的taskGroup重新发给datax service, datax service会把新的taskGroup重新发给其他机器执行
根据算出的最大值、最小值和通道个数(相当于hdata的线程个数)，可以计算出步长(step), 然后根据step，计算出各个分片的长度。
datax split目前仅支持单一主键，且主键类型是int或者varchar类型
执行reader和writer最细力度的切分。需要注意到是，writer的切分结果要参照readre的结果，要达到切分后的结果数目相等，才能满足1：1的通道模型。所以这里可以将reader和writer的配置整合到一起。为了避免顺序给读写带来的长尾效应，将整合的结果shuffle掉。
hbase的分片是通过region来实现的
odps(他们的hadoop环境)是通过offset来实现的
分库分表直接在表的层面划分，各个表之间没有关系。我们交流的团队目前是没有使用canal增量同步数据的
datax没有断点续传，分布式一个错，其他都错。datax如果某一个task失败会有重试，我们hdata目前还没有。后面hdata可以改进下，可以减少整个任务重试的成本。

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

清远_zlm CSDN认证博客专家 CSDN认证企业博客

码龄14年

2: 原创

78万+: 周排名

60万+: 总排名

7302: 访问

: 等级

99: 积分

4: 粉丝

2: 获赞

2: 评论

3: 收藏

私信

关注

热门文章

分类专栏

互联网大数据 2篇

最新评论

hdata datax交流总结
lk832400: 请问您实现了datax的分布式了吗？
hdata datax交流总结
侠客刀: datax交流 QQ1059433980

最新文章

分布式协议Raft浅析

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。