视频压缩IPcore设计_消费类电子论文
关键词:视频压缩 ipcore fpca
现行的视频压缩标准有多种,但基本属于以下两大类:视频会议标准和多媒体标准。视频会议标准包括itu(intemational telecommunication union)的h.263/h.261等。这些标准主要采用了基于dct(离散余弦变换)编码、运动补偿等技术,使视频流能以nx64kbps(n=1~32)的速率传输。
多媒体压缩标准主要包括:mpeg-1、mpeg-2、mpeg-4等,由ccitt和iso的动态图像专家组(motionpicture experts group)制定。mpeg-1主要应用在以cd-rom为介质的视频上,比特率为1.5mbps。mpeg-2应用在ntsc/pal和ccir601中, 比特率为2~10mbps。mpeg—1和mpeg—2的目的都是有效传输和存储音视频。而mpeg-4是为了提供更有效的视频压缩,基于内容提供广泛的接人方式。它既可以在5-64kbps的移动电话和公共交换网中应用,也可以在4mbps带宽的电视中应用。
jpeg(joint photographic experts group)标准是一个适用范围广泛的通用标准,由联合图像专家小组制定。它不仅适用于静止图像的压缩,也适用于电视图像序列的帧内图像的压缩[1]。
近年来,随着fpga技术的日益成熟,愈来愈多的曾使用软件或dsp实现的复杂数字算法开始使用ppca完成。这当然是由于fpga的特殊结构和特性,使它可以更加高速和高效地完成这些算法。ipcore技术可以把这些fpga中的算法设计封装成包(模块)。这些包具有智力产权,可以被继承、共享或购买。
1 视频压缩原理和算法实现
视频压缩技术主要利用图像信号的相关、冗余等特性,通过一些变换算法,保留对人眼视觉最重要的部分,进行编码传输。大部分视频压缩利用2d-dct(二维离散余弦变换)和2d-idct(二维反离散余弦变换)变换得到图像的频谱,高精度保留对人眼重要的高频部分,低精度保留低频部分从而对视频流进行压缩[1]。其过程如图1所示。
1.1 dct变换算法
2d-dct变换是视频压缩中的常用变换[2]。在压缩过程中,将一幅图像分成许多8x8的小块进行变换。
8x8的2d-dct变换如公式(1)所示:
如果直接使用公式(1)进行2d-dct变换,运算量将会十分巨大,普通fpga很难有效完成整个视频压缩运算。所以需要先把2d-dct运算进行一些变换,简化计算,减少运算量。
2d-dct具有正交可分解性闷,可以通过对输入的矩阵先做一维行变换,再做一维列变换实现。即将8x8数据先按行方向进行累加运算,产生中间矩阵,再对中间矩阵按列方向进行累加运算,最后得到变换结果。2d-dct可以分解成两个1d-dct运算,见公式(2)。
将公式(2)展开成矩阵形式,得到公式(3)。计算一个这样的单元需要64个乘法器和56个加法器,运算量还是很大。利用公式(3)的对称性进行变换,可以得到公式(4),使乘法器减少到32个,加法器减少到8个。
一个由公式(4)推演出的分布式乘法器如图2所示。4个乘数(x0…x3)同时与各自的系数(c0…c3)相与,然后相加得到一个和数,这个和数与除2器出来的数相加,得到一个新的累计数。这个新的累加数如果是最后的结果,则输出;如果不是,送入除2器,进行下一步累加。这样,分布式乘法器就可以完成系数yj的运算。
由于dct运算中的系数cm是常数,对于拥有ram单元的fpga,上述运算也可以使用查rom表的方法实现。将图2中的虚线内部分,改换rom单元,如图3所示。这时,(x0…x3)作为rom表的地址位,通过查表的方式输出和数,进行累加运算。rom表的地址位宽度为4,存储单元数量dw=24=16。一些生产商提供的综合软件带有ip库,可以调用这些ip库中的rom模块实现rom表。例如altera公司的megafunction library中的lpm_rom可以用以下的语句调用(veriloghdl)[4]。用vc或matlab生成一个.mif的rom表文件。
lpm_rom u1(
.address(adr),
.inclock(clk),
.q(dat));
defparaln
lpm_rom_component.lpm_width=16,
lpm_rom_component.lpm_widthad=4,
lpm_rom_component.1pm_address_control
="registered",
lpm_rom_component.ipm_outdata
="unregistered",
lpm_rom_component.1pm_file="romtable.mif";
这样,可以得到由这些基本单元构成与矩阵公式(4)相对的1d-dct的fpga设计,如图4所示。其中4rc单元表示图3的结构。
如前所述,2d-dct需要两个1d-dct共同完成,但是两个1d-dct运算的中间变量并不是直接传递的,而需要一个矩阵转置模块进行耦合。
1.2 转置ram
2d-dct单元由两个相同的1d-dct和转置ram等组成,如图5所示。根据公式(2),可以知道1d-dct先对8x8单元的行进行累加操作,把得到的结果暂存到ram中,直到8行都运算完成。ram中的临时8x8矩阵要先转置,把列数据变成行数据,经并串转换后输入到第2个1d-dct进行行累加。
转置ram是一个8x8的ram阵列。当数据完成1d-dct变换后,即由xij到zjl变换,按行顺序输入到转置ram,在读出时按列顺序读出,这样完成zil到zli的变换;然后将z9并串转换,输入到第二个1d-dct,由zli运算得到ylk。这样就完成了公式(1)的2d-dct整个变换,如图6所示。
1.3 2d-idct
2d-idct变换如公式(5)所示。
可见公式(5)与公式(1)相同,所以2d-idct可以用与2d-dct的同样方法实现。
1.4 量化,编码
量化算法包括一张量化表,它因人眼对各种空间频率的灵敏度的不同而确定。在表中,较低空间频率的精度要高于较高频率的精度,这是由于人眼的低频分量比较敏感,而对高频分量不太敏感。
编码可以采用游程编码或熵编码。单元模块均可通过fpga的片上ram(满足双口ram的特性)设计完成。
图6
2 结论
整个视频压缩ipcore设计可以在fpga上实现,在27mhz的系统时钟下工作。根据具体芯片的不同,可以在更高的速率工作。压缩速率可以达到108mbps。
实际应用中,数据字长对压缩效果和比率有较大影响,一般情况下系数cm取12位,可以满足大部分的视频压缩要求。
整个视频压缩ipcore可以直接下载到fpga上(例如edif格式),独立实现视频压缩功能,也可以通过软件设计与其他的ipcore协同工作。例如,在网络摄像机的应用上,可以把视频压缩ipcore、数字摄像头控制器、网络接口一起编译成新的核。这个核具有视频采
集、压缩、传输等一系列功能。把核的edif文件通过生产厂商的下载软件下载到fpga上,就可以在一块芯片上实现所有网络摄像机的功能。实现了sopc(system on a programmable chip)的目标。