LinkedIn Camus实践及踩坑记录

最新推荐文章于 2024-04-11 09:33:48 发布

陈末go

最新推荐文章于 2024-04-11 09:33:48 发布

阅读量1.3k

点赞数

文章标签： hdfs kafka 大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zero_2121/article/details/107090585

版权

本文记录了使用LinkedIn Camus进行Kafka到HDFS数据迁移时遇到的问题及解决过程。在处理3T历史数据时，由于日期跨度大，导致Camus出现找不到block位置的异常。经过排查，发现不按日期分区可以避免该问题，推测可能为Camus在处理大量历史数据时的分布式协调bug。

摘要由CSDN通过智能技术生成

LinkedIn Camus踩坑记录

首先，介绍下Camus吧。

由LinkedIn公司开发的消息队列同步框架，提供将Kafka（一种消息队列框架）的数据装载到Hadoop分布式文件系统(HDFS)的功能。

英文版原文出处：英文版出处

简单来说camus其实底层还是执行的mapreduce，一个将kafka数据拉取hdfs的工具。这个工具相对来说比较小众，但是好处就是使用简单，学习成本低，相对来说跑的是mapreduce还是比较稳定安全的，美团等大厂也有在使用该工具，并对其进行二次开发使用。

同时介绍几个与Camus类似的组件，可参考类似组件这篇文章。

基础使用篇的话我后面补上，先说下我的踩坑记录吧，毕竟排查加解决花费了整整一天的时间，还是值得记录下来的.

背景介绍：当时由于某些原因，需要处理历史数据并入到hive表，历史数据时间跨度三年，数据量3T左右，我这边处理的流程是filebeat->kafka->sparkstreaming->kafka这样一个流程，最后通过camus去拉取kafka对应topic的数据到hdfs(hdfs文件以天为单位进行分区以方便load到hive表中)。从kafka拉取下来的文件到hdfs大致是这样的：

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

陈末go CSDN认证博客专家 CSDN认证企业博客

码龄6年

8: 原创

88万+: 周排名

227万+: 总排名

6493: 访问

: 等级

119: 积分

1: 粉丝

1: 获赞

5: 评论

18: 收藏

私信

关注

热门文章

最新评论

LinkedIn Camus实践及踩坑记录
AlfredNing: 将Kafka上的Binlog解析成符合目标Schema的格式这个有没有介绍的方法
LinkedIn Camus实践及踩坑记录
AlfredNing: 将Kafka上的Binlog解析成符合目标Schema的格式这个有没有介绍的方法
离线数仓到实时数仓的架构演变
weixin_51783028: 所以我觉得lambda是最靠谱的，因为你无论如何，离线数仓都是需要的啊
离线数仓到实时数仓的架构演变
weixin_51783028: 那么我就想知道，纯实时数仓，怎么面对海量历史数据？ upsert性能越来越差，访问也越来越慢。离线做的是增量设计，数据量可控
GC介绍及调优
苜苜的烂笔头: 干货满满，很详细，评论占个坑。

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。