基于FPGA实现FIR滤波器的研究_EDAPLD论文
关键词:fpga da fir滤波器 csd
数字滤波器是语音与图像处理、模式识别、雷达信号处理、频谱分析等应用中的一种基本的处理部件,它能满足波器对幅度和相位特性的严格要求,避免模拟乙波器所无法克服的电压漂移、温度漂移和噪声等问题。有限冲激响应(fir)滤波器能在设计任意幅频特性的同时保证严格的线性相位特性。
目前fir滤波器的实现方法有三种:利用单片通用数字滤波器集成电路、dsp器件和可编程逻辑器件实现。单片通用数字滤波器使用方便,但由于字长和阶数的规格较少,不能完全满足实际需要。使用dsp器件实现虽然简单,但由于程序顺序执行,执行速度必然不快。fpga有着规整的内部逻辑阵列和丰富的连线资源,特别适合于数字信号处理任务,相对于串行运算为主导的通用dsp芯片来说,其并行性和可扩展性更好。但长期以来,fpga一直被用于系统逻辑或时序控制上,很少有信号处理方面的应用,其原因主要是因为在fpga中缺乏实现乘法运算的有效结构。现在这个问题得到了解决,使fpga在数字信号处理方面有了长足的发展。
图1
1 分布式运算原理
分布式算法(da)早在1973年就已经被croisier提出来了,但是直到fpga出现以后,才被广泛地应用在fpga中计算乘积和。
一个线性时不变网络的输出可以用下式表示:
=c[0]x[0]+cx+…+c[n-1]x[n-1]
假设系数c[n]是已知常数,x[n]是变量,在有符号da系统中假设变量x[n]的表达式如下:
式中,xb[n]表示z[叫的第b位,而x[n]也就是x的第n次采样。于是,内积y可以表示为:
重新分别求和(也就是分布式算法的由来),其结果如下:
从(1)式可以发现,分布式算法是一种以实现乘加运算为目的的运算方法。它与传统算法实现乘加运算的不同在于执行部分积运算的先后顺序不同。分布式算法在实现乘加功能时,是通过将各输入数据的每一对应位产生的部分积预先进行相加形成相应的部分积,然后再对各个部分积累加形成最终结果的,而传统算法是等到所有乘积已经产生之后再来相加完成乘加运算的。与传统串行算法相比,分布式算法可极大地减少硬件电路的规模,提高电路的执行速度。它的实现框图如图1(虚线为流水线寄存器)所示。
图2
2 用分布式原理实现fir滤波器
2.1 串行方式
当系统对速度的要求不高时,可以采用串行的设计方法,即采用一个da表、一个并行累加器和少量的寄存器就可以了。
在用lut实现串行分布式算法的时候,假设系数为8位,则da表的规模为2n×8位。可以看到如果抽头系数n过多,则da表的规模将十分庞大。这是因为lut的规模随着地址空间的变化(也就是n的增加)而呈指数增加。例如epfl0k20包含1152个lc,而一个27×7位的表就需要394个lc。当n过大时,一个fpga器件就不够用了。
为了减小规模,可以利用部分表计算,然后将结果相加。假定长度为ln的内积为:
将和分配到l个独立的n阶并行da的lut之中结果如下:
如图2所示,实现一个4n的da设计需要3个次辅助加法器。表格的规模从一个2 n×b位的lut降到4个2 n×b的位表。
如果再加上流水线寄存器,由于epfl0k20每个lc后面都跟有一个寄存器,所以并没有增加电路规模,而速度却得到了提高。
2.2 并行方式
采用并行方式的好处是处理速度得到了提高。由于数据是并行输入,所以计算速度要比串行方式快,但它的代价是硬件规模更大了。下面举出全并行的例子。
设 sum[0]=c[0]x0+[0]+cx0+…+c[n-1]x0[n-1]
sum[b-1]=c[b-1]xb-1[0]+cxb-1+…c[n-1]+xb-1[n-1]
可将(1)式改写成如下形式
y=sum[0]+sum2 1+sum 2+…+sum[b-1]2 b-1 (2)
利用式(2)可得一种直观的加法器树,如图3所示。
虽然硬件规模加大了,但是如果把系数的个数限制在4个或8个,再加上流水线寄存器,这个代价还是值得的。而且每张表都是相同的,不用为每个采样都设计一张表,减小了设计量。
da算法的主要特点,是巧妙地利用rom查找表将固定系数的mac运算转化为查表操作,其运算速度不随系数和输入数据位数的增加而降低,而且相对直接实现乘法器而言在硬件规模上得到了极大的改善。利用altera的flexl0k实现的16阶8位系数的并行fir滤波器,其时钟频率可以达到101mhz,而实现的16阶8位系数的串行fir滤波器,其时钟频率可以达到63mhz,每9个时钟周期可完成一次计算。但是其系数是传统二进制的,造成了很大的冗余(对于用逐位相加法实现的乘法器,当系数有一位为零时不用相加,零位越多,冗余越大),而且查找表的大小随着滤波器阶数的增加成指数增加,虽然可以采用将大查找表分解为小查找表,但是无法从根本上解决这一问题,这些都是da方法的缺点。后面将对fir滤波器实现给出新的设计方法,进一步降低逻辑资源的消耗。
3 csd码及最优化方法
一个整数x与另一整数y的乘积的二进制表示可以写成:
对于标准二进制,由于sn=0时的对应项y2n并不参与累加运算,所以可以用另一种表示方法使非零元素的数量降低,从而使加法器的数目减少,降低硬件规模。有符号数字量(sd)有三重值{0,-1,+1},如果任意两个非零位均不相邻,即为标准有符号数字量(csd)。
可以证明csd表示对给定数是唯一的并且是最少非零位的。csd表示相对于标准二进制表示的改进在于引入了负的符号位,从而降低了非零位个数,大大降低了逻辑资源的占用(大约平均降低33%的逻辑资源)。
当用硬件实现时,常常限制系数位数,即每个系数与n个正(负)2的幂次之和近似。标准二进制数在整数轴上是紧密和均匀分布的,而csd码是非均匀分布的,其对实系数的量化误差比标准二进制大,虽然增加n可以减小量化误差,但是会增大逻辑资源的消耗;而且csd表示无法应用流水线结构,从而降低处理速度。
还可采用优化的方法将系数先拆分成几个因子,再实现具体因子。这就是最优化的代码。例如对系数93,93=10111012=1100101csd。用最优化法,系数93可以表示成93=3·31,每个因子需要一个加法器,如图4所示。
图4
从图中可以看出,csd码需要三个加法器,而最优法只需要两个加法器;csd码的重要缺陷在于每一级加法都需要初节点参与,而最优表示仅依赖上一级加法的结果,因此也就更适合流水线处理。dempster等人提出了需要1到4个加法器的所有可能配置表。利用这张表,就可以合成成本在0与4个加法器之间的所有8位二进制整数。
本文首先给出了一种巧妙利用fpga的查找表,将乘法转化为查找表运算的da算法,并用altera的flexlok器件分别实现了一个8位16阶的串行与并行fir滤波器,系统频率分别达到63mhz与101mhz,采样速度分别达到7msps与101msps。而dsp实现的fir滤波器只能达到5msps,明显低于fpga。用传统的位串行方法实现的一个8阶8位fir滤波器,也只能达到5msps,明显低于串行式da方法;接着,针对系数的二进制表示非零位不是最少(即实现系数乘法的加法器不是最少)的问题,介绍了整数的csd表示以及最优表示,它们可以用较小的代价和与加法器级数无关的处理速度实现整数乘法运算,能比da方法用更少的逻辑资源实现fir滤波器。这些算法都不同于传统的设计观念,为基于fpga的dsp设计提出了新的思路,必将在高速fir滤波器设计、高速fft设计中得到广泛的应用。随着fpca集成规模的不断提高,许多复杂的运算已经可以用fpca来实现,利用单片fpga实现系统的设想即将变为现实。