离散余弦变换的FPGA设计_离散余弦变换dct的fpga实现-CSDN博客

本文链接：https://blog.csdn.net/yinbanghui_2019/article/details/107971116

文章目录

1. $DCT$变换
2. $DCT$算法
3. $DCT$并行算法
4. FPGA考虑
- 4.1. 转化浮点数为定点数
5. 参考文献

1. $D C T$ 变换

1.1. $D C T$ 和 $I D C T$

离散余弦变换

$DCT:fig|\rightarrow FIG \tag{1}$

1.2. $D C T$ 是一泛函，而且是线性泛函

1.2.1. 泛函是什么

1.2.1.1. 函数到函数的映射

1.2.1.2. $f i g$ 是函数吗？

是

a. 一维 $D C T$
$fig=n\in\{0,1,...,N-1\}=>a_n\in X=\{0...255\} \tag{21}$
b. 二维 $D C T$
$fig=i,j\in\{0,1,...,N-1\}=>a_{ij}\in X\bigotimes X \tag{22}$

1.2.1.2.1. 向量和矩阵是函数吗？

1.2.2. 线性泛函又是什么

原像做线性运算，其像也做线性变换

1.3. $f i g$ 所在空间 $X$ ， $X$ 不是线性空间， $X$ 有界

因为 $fig_1+fig_2$ 可能超过了 $X$ 的界限
$\begin{Vmatrix}X\end{Vmatrix}=\sqrt{x_1^2+x_2^2+x_3^2} \tag{23}$

1.4. $X$ 为拓扑空间

具有度量属性

1.4.1. $X$ 不是紧集

任意两点的中点也属于该集合

1.5. $F I G$ 所在的值域是什么

1.6. 误差范围

1.7. $D C T$ 性质

1.7.1. $DCT\begin{pmatrix}afig\end{pmatrix}=aDCT\begin{pmatrix} fig \end{pmatrix}$

线性泛函

1.7.2. $DCT\begin{pmatrix}fig_1+fig_2\end{pmatrix}=DCT\begin{pmatrix} fig_1 \end{pmatrix}+DCT\begin{pmatrix} fig_2 \end{pmatrix}$

1.8. 使用张量和矩阵重新表达

消除累加符号

1.8.1. 张量表示

1.8.1.1. 矩阵是几阶张量？

1.8.1.1.1. ref [5] p59

$n$ 维空间中任一种形式的二阶张量分量均含有 $n\times n$ 个分量，可以按通常的方法列出

1.8.1.2. 张量的相似性

正交相似张量

1.8.2. 矩阵表示

1.8.2.1. Ref [2]

Formula (1) can also be expressed in a matrix form as:
$F=G.f.G^T \tag{41}$
$f=G^T.F.G \tag{42}$

其中
$F=\begin{bmatrix} F(0,0)&F(0,1)&\cdots&F(0,7)\\ F(1,0)&F(1,1)&\cdots&F(1,7)\\ \cdots&\cdots&\cdots&\cdots\\ F(7,0)&F(7,1)&\cdots&F(7,7) \end{bmatrix} \tag{43}$
$f=\begin{bmatrix} f(0,0)&f(0,1)&\cdots&f(0,7)\\ f(1,0)&f(1,1)&\cdots&f(1,7)\\ \cdots&\cdots&\cdots&\cdots\\ f(7,0)&f(7,1)&\cdots&f(7,7) \end{bmatrix} \tag{44}$

$G=\frac{1}{2}\begin{bmatrix} \frac{1}{\sqrt{2}}&\frac{1}{\sqrt{2}}&\cdots&\frac{1}{\sqrt{2}}\\ \cos{\frac{\pi}{16}}&\cos{\frac{3\pi}{16}}&\cdots&\cos{\frac{15\pi}{16}}\\ \cdots&\cdots&\cdots&\cdots\\ \cos{\frac{7\pi}{16}}&\cos{\frac{21\pi}{16}}&\cdots&\cos{\frac{105\pi}{16}} \end{bmatrix} \tag{45}$

1.8.2.2. ref [4] p47 酉矩阵

G是酉矩阵，因此该变换是相似变换
$G^{-1}=G^T \tag{51}$

1.9. $D C T - 1 D$ 变换的性质

1.9.1. 正交变换不改变向量的度量?

向量元素平方和不相等？

1.9.2. 离散傅里叶变换的性质

1.9.2.1. 帕塞瓦定理

$\sum_{n=0}^{N-1}{x(n)y^*(n)}=\frac{1}{N}\sum_{k=0}^{N-1}{X(k)Y^*(k)} \tag{52}$
还是对不上

1.9.2.2. 实偶函数的傅里叶变换只含实的余弦项

1.9.2.2.1. $x (n)$ 为实偶函数，则 $X (k)$ 也为实偶函数

ref [6] p92
$\begin{array}{l} x(n)=x(N-n),1\leq n\leq N-1 \Rightarrow \\ X(k)=X(N-k),1\leq k\leq N-1 \end{array} \tag{53}$

1.9.3. 离散余弦变换的性质

1.9.3.1. 同离散傅里叶变换的关系

根据离散傅里叶变换的性质，实偶函数的傅里叶变换只含实的余弦项，因此构造了一种实数域的变换——离散余弦变换(DCT)。

1.9.3.2. 线性变换性质

$DCT(ax-b)\tag{54}$

1.10. 线性变换

1.10.1. 2D DCT也是一种线性变换？

2. $D C T$ 算法

2.1. $D C T - 2 D$

2.1.1. Ref[1] 4

$F_{x,y}=\frac{C(x)C(y)}{4} \sum_{i=0}^{7} {\sum_{j=0}^{7}{ f_{i,j} \cos\left(\frac{(2i+1)x\pi}{16}\right) \cos\left(\frac{(2j+1)y\pi}{16}\right) }} \tag{61}$

其中
$\begin{cases} \frac{1}{\sqrt{2}},n=0\\ 1,n\ne0 \end{cases} \tag{62}$

用张量表示为：
$F_{x,y}=G_{x,i}f_{i,j}G_{y,j} =G_{x,i}f_{i,j}G^T_{j,y}\tag{621}$

2.1.2. 矩阵表示

$G_{x,i}=\frac{C(x)}{2}\cos\left( \frac{(2i+1)x\pi}{16} \right) \tag{622}$

2.1.3. 转化为一维

由 $(t 1)$ 可得：
$F_{x,y}=\frac{C(y)}{2}\sum_{j=0}^{7}{F_x\cos\left( \frac{(2j+1)y\pi}{16} \right)} \tag{63}$

2.1.4. 计算方法

$F=G.f.G^T=G(GF^T)^T \tag{68}$

2.2. $D C T - 1 D$

2.2.1. 一维离散余弦变换

$F_{x,j}=\frac {C(x)} {2} \sum _{i=0} ^{7} {f_{i,j}\cos \left( \frac {(2i+1)x\pi} {16} \right)} \tag{71}$
用张量表示为
$F_{x,j}=G_{x,i}f_{i,j} \tag{711}$

2.2.2. 矩阵表示

$G_{x,i}=\frac{C(x)}{2}\cos\left( \frac{(2i+1)x\pi}{16} \right) \tag{712}$
那么第0行元素为：
$G_{0,i}=\frac{C(0)}{2}=\frac{1}{2\sqrt{2}} \tag{713}$

Table 1 用了转置矩阵的写法
$C=G^T \tag{714}$

2.2.3. Table 1

$C=\frac{1}{2} \left(\frac{1}{\sqrt{2}}\right)=0.353$

2.2.4. FPGA算法

$G$ 矩阵的第 $x$ 行元素，或者对称（ $x = 0, 2, 4, 6$ ），或者反对称( $x = 1, 3, 5, 7$ ). 当 $x = 0, 2, 4, 6$ 时，取正号；当 $x = 1, 3, 5, 7$ 时，取负号：
$\begin{array}{ll} F_x & = \sum_{i=0}^{3}{(f_i\pm f_{7-i})C_{i,x}}\\ & =\sum_{i=0}^{3}{\frac{f_i\pm f_{7-i}}{2}*2C_{i,x}} \\ & =\sum_{i=0}^{3}{u_i C_{i,x}} \end{array}\tag{715}$

其中
$\begin{array}{cc} u_i=\frac{f_i+f_{7-i}}{2} & x=0,2,4,6\\ v_i=\frac{f_i-f_{7-i}}{2} & x=1,3,5,7 \end{array} \tag{7151}$
实际代码中，除数的２换算到量化里面去了；最后结果要根据量化到[-1,1)，进行处理得到最终结果

假设 $u_i$ 使用补码表示为： $u_i^0 u_i^1 \cdots u_i^{B-1}, B=9$ ，则
$u_i=-u_i^0+\sum_{j=1}^{B-1}{2^{-j}u_i^j} \tag{716}$

则
$\begin{array}{ll} F_x & =\sum_{i=0}^{3}{\left[-u_i^0+\sum_{j=1}^{B-1}{2^{-j}u_i^j} \right] C_{i,x}} \\ &= -\sum_{i=0}^{3}{u_i^0C_{i,x}+\sum_{j=1}^{B-1}{2^{-j}\sum_{i=0}^3{u_i^jC_{i,x}}}} \end{array}\tag{717}$

假设 $u^j=u^j_0u^j_2u^j_4u^j_6, v^j=u^j_1u^j_3u^j_5u^j_7, j=0,\cdots,(B-1)$

$D_x(u^j)=\sum_{i=0}^3{C_{i,x}u^j_i} \tag{718}$

因此：
$F_x=\sum_{j=1}^{B-1}{ 2^{-j}D_x(u^j)-D_x(u^0) \quad for \quad x=0,2,4,6 } \tag{72}$

$F_x=\sum_{j=1}^{B-1}{ 2^{-j}D_x(v^j)-D_x(v^0) \quad for \quad x=1,3,5,7 } \tag{73}$

2.2.4.1. $u^j$ 是什么意思

由(12)式下面的式子定义

$u_j=(u_0^j,u_1^j,u_2^j,u_3^j) \tag{74}$

2.2.4.2. 图片像素的量化

2.2.4.2.1. [0,255]量化为[-1,1)

$y=\frac{x}{2^7}-1 \tag{75}$

像素第1位是0则改为1，是1则改为0

2.2.4.2.2. [0,255]量化为[-0.5,0.5)

确保后面的加减运算不会溢出
$y=\frac{x}{2^8}-\frac{1}{2} \tag{76}$
假设 $x=x_0x_1\cdots x_7$ ，那么
$y=0.x_0x_1\cdots x_7+1.10000000 \tag{77}$

像素第1位是0则改为11，是1则改为00

2.2.5. 那么一维 $D C T$ 是不是 $F = G f$ ?

对

2.2.6. distributed arithmetic method

2.2.6.1. ref [7] 2.5.1 分布式算法基础

2.3. 考虑的问题

2.3.1. $B$ 的取值

$B = 9$

2.3.2. $D_x$ 的位数

整数４位，小数９位

2.3.3. $F_x$ 的位数

3. $D C T$ 并行算法

3.1. 补码表示

假设纯小数 $u_i$ 使用补码表示为： $u_i^0 u_i^1 \cdots u_i^{B-1}$ ，则
$u_i=-u_i^0+\sum_{j=1}^{B-1}{2^{-j}u_i^j} \tag{81}$

最高阶取相反数，其余阶不变

$B = 8$

3.2. 图片数据stream怎么流向处理器

视频数据由电脑传给FPGA，采用通用的总线接口，使用RAM来存储这些数据
一列一列处理(8x1)，需要64位总线
处理后的结果传出到寄存器组，通过64位总线
处理下一列，一直处理完所有列
读取寄存器组里面的转置数据，进行另外一组一维DCT变换，一行一行处理
处理下一行，一直处理完所有行
第二次1D DCT变换完成后，将寄存器组里面的数据全部传出
一列一列传
继续处理下一张图片
dct处理完，后序要经过量化，然后编码
如果是预测编码，还要减去预测部分，余量很小，编码量相应变小

3.3. 并行化考虑

多列同时处理
最大8列一起处理，总线宽度为：64x8=512位
RAM也需要512位的接口
ROM每一组需要8个，一共8组

3.4. ROM数据计算

需要8个不同的ROM
$D_x(u^j)=\sum_{i=0}^{3}{C_{i,x}u_i^j} \tag{91}$

4. FPGA考虑

4.1. 转化浮点数为定点数

python考虑的内容，转换后存入ROM
整数部分为4位，小数部分11位
会不会超过范围
那么DCT变换的结果就应该是15位
输入是8位，输出是15位？
- 大多数结果数据都接近于0，被后面的熵编码用短码替换了

5. 参考文献

[1] SystemC co-design for image compression: Fast Discrete Cosine Transformation using Distributed Arithmetic Method
[2] Fast 2D 8x8 discrete cosine transform algorithm
[3] 数字信号处理-冈萨雷斯
[4] 矩阵分析
[5] 张量分析
[6] 数字信号处理-高西全
[7] 数字信号处理的FPGA实现