为什么会想到写这样一篇文章呢?因为前阵子在做Observer NameNode(我们简称它为ONN)的相关测试,在做ONN的editlog能够快速追上ANN的性能调优的时候,阅读源码时发现在GetJournalEditServlet#doGet方法中,发送editlog文件的时候会传入一个DataTransferThrottler类型的对象,这个throttler的作用是用来限流的,防止传输editlog时将带宽打满导致其他网络传输数据的任务收到影响。同时发现这个DataTransferThrottler类在balancer、传输fsimage的时候也都会用到,还是挺通用的一个数据结构,遂阅读一下源码分析一下限流器的原理。
一、白话说明
这一节用白话说一下限流器的原理。
假设我们在hdfs-site.xml中配置了每秒最大传输带宽为1000B/S,也就是每秒最多传输1000个字节。
那HDFS的限流器里有period窗口的概念,默认值是500ms,它是按500ms进行统计已传输的字节数的。根据上面的配置,HDFS会计算得到500ms内最多传送500个字节。
于是HDFS会在每个period窗口内记录当前窗口剩余可以发送的字节数。比如我们准备发送100个字节,那么当前period窗口剩余允许发送的字节就是500-100 = 400个。当剩余允许发送的字节数小于等于0时,就调用wait方法等待直到下个period周期。
<