flink源码学习1——看看flink的kafka source是怎么拉数据的，看完后破灭了

最新推荐文章于 2023-05-15 15:15:42 发布

innerpeace_千里江海

最新推荐文章于 2023-05-15 15:15:42 发布

阅读量286

点赞数

本文链接：https://blog.csdn.net/weixin_45254288/article/details/117406037

版权

flink 同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

kafka

1 篇文章 0 订阅

订阅专栏

flink kafka

1 篇文章 0 订阅

订阅专栏

1.问题来源

说实话，之前有点好奇，flink大婶们写的跟kafka对接，不会是跟我们一样，用的kafka client的api吧？
抱着观摩的心态看了看，心态一波三折，一开始朝圣，然后又惊讶，最后却肃然起敬，全体起立！
废话不说，跟我来

2.源码答疑

首先直捣黄龙，flinkkafkaconsumer点起，进去一看，方法很少，我一看就知道下一步是createFetcher，别问为什么，问就是直觉，不，经验。
点进去，就新建了个KafkaFetcher，点进这个类里面，一看下一步就是runFeftchLooop，别问，经验
点进去，好家伙，先开一个线程，再来一个至死方休的循环，熟悉的味道
先看开启的线程，consumerThread，这名字，意简言赅，看来要找的就是它了！进去瞧一瞧
点进去，线程里面直接看run()，线程不看run，就是耍流氓
run里面直奔主题，发现一个this.consumer=getConsumer(kafkaProperties)
好家伙，点进去getConsumer，发现里面是new KafkaConsumer，这个KafkaConsumer就是我常用的kafka消费者api
看到这里，晴天霹雳，为啥大婶也用这么low的api。
惊讶

3.疑惑又生

此时心里又有一点疑惑，flink是流式计算，处理完一条才拉下一条
也就是说会有阻塞消费的行为
但是我的代码是一路干到底的，不会有阻塞的
也就是说，大婶牛逼！
我来看看大婶是怎么实现阻塞消费kafka的，如果是Thread.sleep(1000),我再也不看flink的kafka source

4.大神牛逼

于是，我退回前面的consumerThread.run()方法，发现这里用kafkaclient的api拉到kafka records数据后，利用一个叫handover的东西，调用它的producer，保存kafka的数据
这里保存是加锁的，也就是说，这个保存没拿到锁就不会保存，就卡住，不动，source就不拉数据了
根据经验，handover里面应该还有一个方法会来抢锁，并且不出意料的话，这个抢锁的应该就是用来消费的
果然，跟produce对应的，有一个pollNext，是拉取存进去的kafka数据的。
produce跟pollNext抢同一把锁
完美，拉数据的时候不能存，存数据时不能拉
轮着来
问题又来了，要是拉数据一直抢不到锁，那不是一直存？
大婶肯定解决了，让我看看
果然，上一次存的数据如果没有被flink下一个算子拉走，那么存数据就会wait，等待下一个算子拉的时候，顺便notify。
wait+notify=perfet!

5.总结

flink对接kafka就是用的最通用的kafkaclient的api，只不过加了些处理逻辑。
这样一想，诶！我跟flink大婶的技术深度是一样的呢？

6.课后题

1）根据存数据的流程，自己查看拉数据的流程
2）如果上一次拉完数据后，还没有存数据，下游消费完后，又来拉数据，这种情况会有阻塞吗，如果有的话又是怎么阻塞的呢？

7.真正的总结

大婶牛逼！膜拜

innerpeace_千里江海

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
flink源码学习1——看看flink的kafka source是怎么拉数据的，看完后破灭了

1.问题来源说实话，之前有点好奇，flink大婶们写的跟kafka对接，不会是跟我们一样，用的kafka client的api吧？抱着观摩的心态看了看，心态一波三折，一开始朝圣，然后又惊讶，最后却肃然起敬，全体起立！废话不说，跟我来2.源码答疑首先直捣黄龙，flinkkafkaconsumer点起，进去一看，方法很少，我一看就知道下一步是createFetcher，别问为什么，问就是直觉，不，经验。点进去，就新建了个KafkaFetcher，点进这个类里面，一看下一步就是runFeftchLoo
复制链接

扫一扫