FPGA设计思想与技巧

概述

  

  • 乒乓操作

  • 串并转换

  • 流水线操作

  • 数据接口同步化

        都是FPGA/CPLD逻辑设计的内在规律的体现,合理地采用这些设计思想能在FPGA/CPLD设计工作种取得事半功倍的效果。

        FPGA/CPLD的设计思想与技巧是一个非常大的话题,由于篇幅所限,本文仅介绍这4个常用的设计思想与技巧。

1.乒乓操作

乒乓操作是一个常常应用于数据流控制的处理技巧,如图所示:

  • 在第1个缓冲周期,将输入的数据流缓存到数据缓冲模块1;

  • 在第2个缓冲周期,通过输入数据选择单元的切换,将输入的数据流缓存到数据缓冲模块2,同时将数据缓冲模块1缓存的第1个周期数据通过输入数据选择单元的选择,送到数据流运算处理模块进行运算处理;

  • 在第3个缓冲周期,通过输入数据选择单元的再次切换,将输入的数据流缓存到数据缓冲模块1,同时将数据缓冲模块2缓存的第2个周期的数据通过输入数据选择单元切换,送到数据流运算处理模块进行运算处理

1、乒乓操作的最大特点是通过“输入数据选择单元”和“输出数据选择单元”按节拍、相互配合的切换,将经过缓冲的数据流没有停顿地送到“数据流运算处理模块” 进行运算与处理。

2、乒乓操作的第二个优点是可以节约缓冲区空间。

        比如在WCDMA基带应用中,1个帧是由15个时隙组成的,有时需要将 1整帧的数据延时一个时隙后处理,比较直接的办法是将这帧数据缓存起来,然后延时1个时隙进行处理。这时缓冲区的长度是1整帧数据长,假设数据速率是3.84Mbps=3840000bps,1帧长10ms=0.01s,则此时需要缓冲区长度是 3840000*0.01=38400 位。

        方法:如果采用乒乓操作,只需定义两个能缓冲 1个时隙数据的RAM(单口RAM即可)。当向一块 RAM 写数据的时候,从另一块 RAM 读数据,然后送到处理单元处理,此时每块 RAM 的容量仅需 38400/15=2560 位即可,2 块 RAM 加起来也只有 5120 位的容量。

3、巧妙运用乒乓操作还可以达到用低速模块处理高速数据流的效果。

         假设端口A的输入数据流的速率为100Mbps,乒乓操作的缓冲周期是10ms。以下分析各个节点端口的数据速率。         

        在第1个缓冲周期10ms内,通过“输入数据选择单元”,从 B1 到达 DPRAM1。B1 的数据速率也是 100Mbps,DPRAM1 要在 10ms 内写入 1Mb 数据。

        在第 2 个 10ms,数据流被切换到 DPRAM2,端口 B2 的数据速率也是 100Mbps,DPRAM2在第 2 个 10ms 被写入 1Mb 数据。

        在第3 个 10ms,数据流又切换到 DPRAM1,DPRAM1 被写入1Mb 数据。

仔细分析就会发现到第3个缓冲周期时,留给DPRAM1读取数据并送到“数据预处理模块1”的时间一共是20ms。

        有的工程师困惑于 DPRAM1 的读数时间为什么是 20ms,这个时间是这样得来的:

        首先,在在第 2 个缓冲周期向 DPRAM2 写数据的 10ms 内,DPRAM1 可以进行读操作;

另外,在第 1 个缓冲周期的第 5ms 起(绝对时间为 5ms 时刻),DPRAM1 就可以一边向 500K 以后的地址写数据,一边从地址 0 读数,到达 10ms 时,DPRAM1 刚好写完了 1Mb 数据,并且读了 500K 数据,这个缓冲时间内 DPRAM1 读了 5ms;

        在第 3 个缓冲周期的第 5ms 起(绝对时间为 35ms 时刻),同理可以一边向 500K 以后的地址写数据一边从地址0 读数,又读取了5 个ms,所以截止 DPRAM1 第一个周期存入的数据被完全覆盖以前,DPRAM1 最多可以读取 20ms时间,而所需读取的数据为 1Mb,所以端口 C1 的数据速率为:1Mb/20ms=50Mbps。因此,“数据预处理模块 1”的最低数据吞吐能力也仅仅要求为 50Mbps。

        同理,“数据预处理模块 2”的最低数据吞吐能力也仅仅要求为 50Mbps。

        换言之,通过乒乓操作,“数据预处理模块”的时序压力减轻了,所要求的数据处理速率仅仅为输入数据速率的 1/2。

        通过乒乓操作实现低速模块处理高速数据的实质是:通过 DPRAM 这种缓存单元实现了数据流的串并转换,并行用“数据预处理模块 1”和“数据预处理模块 2”处理分流的数据,是面积与速度互换原则的体现!        

2.串并转换

前面在乒乓操作的图例中,就是通过 DPRAM 实现了数据流的串并转换,而且由于使用了DPRAM,数据的缓冲区可以开得很大,对于数量比较小的设计可以采用寄存器完成串并转换。

        如无特殊需求,应该用同步时序设计完成串并之间的转换。

        比如数据从串行到并行,数据排列顺序是高位在前,可以用下面的编码实现:

        prl_temp<={prl_temp,srl_in};

其中,prl_temp是并行输出缓存寄存器,srl_in是串行数据输入。

3.流水线操作

        流水线处理是高速设计中的一个常用设计手段。如果某个设计的处理流程分为若干步骤,而且整个数据处理是“单流向”的,即没有反馈或者迭代运算,前一个步骤的输出是下一个步骤的输入,则可以考虑采用流水线设计方法来提高系统的工作频率。

        流水线操作的最大特点和要求是,数据流在各个步骤的处理从时间上看是连续的,如果将每个操作步骤简化假设为通过一个D触发器(就是用寄存器打一个节拍),那么流水线操作就类似一个移位寄存器组,数据流依次流经D触发器,完成每个步骤的操作。流水线设计时序如下图所示。

 

        流水线设计的一个关键在于整个设计时序的合理安排,要求每个操作步骤的划分合理。

        如果前级操作时间恰好等于后级的操作时间,设计最为简单,前级的输出直接汇入后级的输入即可;

        如果前级操作时间大于后级的操作时间,则需要对前级的输出数据适当缓存才能汇入到后级输入端;

        如果前级操作时间恰好小于后级的操作时间,则必须通过复制逻辑,将数据流分流,或者在前级对数据采用存储、后处理方式,否则会造成后级数据溢出

在WCDMA设计中经常使用到流水线处理的方法,如 RAKE 接收机、搜索器、前导捕获等。

流水线处理方式之所以频率较高,是因为复制了处理模块,它是面积换取速度思想的又一种具体体现。

4.数据接口同步化

下面简单介绍几种不同情况下数据接口的同步方法:

1.最常用的缓存单元是DPRAM,在输入端口使用上级时钟写数据,在输出端口使用本级时钟读数据,这样就非常方便的完成了异步时钟域之间的数据交换。

        前面在输入数据同步化中已经简单介绍了一个原则:如果输入数据的节拍和本级芯片的处理时钟同频,可以直接用本级芯片的主时钟对输入数据寄存器采样,完成输入数据的同步化;如果输入数据和本级芯片的处理时钟是异步的,特别是频率不匹配的时候,则只有用处理时钟对输入数据做两次寄存器采样,才能完成输入数据的同步化。

2.设计数据接口同步是否需要添加约束?

建议最好添加适当的约束,特别是对于高速设计,一定要对周期、建立、保持时间等添加相应的约束。

这里附加约束的作用有两点

a. 提高设计的工作频率,满足接口数据同步要求。通过附加周期、建立时间、保持时间等约束可以控制逻辑的综合、映射、布局和布线,以减小逻辑和布线延时,从而提高工作频率,满足接口数据同步要求。

b. 获得正确的时序分析报告。几乎所有的FPGA设计平台都包含静态时序分析工具,利用这类工具可以获得映射或布局布线后的时序分析报告,从而对设计的性能做出评估。静态时序分析工具以约束作为判断时序是否满足设计要求的标准,因此要求设计者正确输入约束,以便静态时序分析工具输出正确的时序分析报告。

Xilinx和数据接口相关的常用约束有Period、OFFSET_IN_BEFORE、OFFSET_IN_AFTER、OFFSET_OUT_BEFORE 和 OFFSET_OUT_AFTER

Altera与数据接口相关的常用约束有Period、tsu、tH、tco等。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值