在流水设计中,时常会遇到对某一路数据打多拍从而对齐另一路数据的场景,而除了最后一拍是真正需要的,中间的打拍从功耗上来看是有点浪费的。
举个例子,对8bit in_data打4拍,总共需要用到4个8bit寄存器,常规打拍方法传输4个数据(D0~D3)一共翻转:8bit*4*4=128 transitions,见下图:
有没有办法减少寄存器的翻转呢?一种思路是采用类似RAM的结构,将in_data按地址先缓存起来,然后按照寻址方式读出,这样除了写入读出,其他时间都是读写指针在翻转。
形象化的表述如下图:
其时序如下:
还是以传输4个数据(D0~D3)为例,这种方法将翻转次数降低到了:8bit*3(buf[2:0]) + 8bit*4(out_data) + 2bit*2*4(wr/rd counter) = 72 transitions,比常规打拍减少了56次翻转,代价则是增加了2个2bit计数器。
如果输出采用组合逻辑,翻转次数还能再降低,时序如下:
assign out_data = (rd_cntr == 2'd0) ? buf[0] :
(rd_cntr == 2'd1) ? buf[1] :
(rd_cntr == 2'd2) ? buf[2] :
buf[3] ;
寄存器翻转了:8bit*4(buf[3:0]) + 2bit*2*4(wr/rd counter) = 48 transitions,但这时候的out_data是组合逻辑输出,对下游来说并不解耦,可能影响性能,所以不推荐。