自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 H.264格式分析及编码实验

首先我们通过软件来分析一下H.264文件的结构采用demo.264文件进行分析首先先来介绍一下SPS和PPSSPS组成如下所示profile_idc: 标识当前H.264码流的profile。constraint_setn_flag(n为数字): 等于1时表示必须遵从附录 A.2.n 所指明的所有制约条件。等于 0 时表示不必遵从所有条件。level_idc: 标识当前码流的level。level级别为level_idc/10,例如该图所示文件的level为3.1。seq_parameter

2021-07-13 20:11:10 157

原创 MPEG音频编码器的调试及不同音频的分析

一  原理分析首先我们先来看一下MPEG音频编码的基本思想及框架,如下图所示不难看出,码流分为了两条路,上面一条路通过滤波器被分为了32个子带,而后进行线性量化器,量化比特数由下面这条线进行动态分配给出,着重分析下面一条线,首先进行1024点fft,转换为频域,通过了心理声学模型,而后通过比例因子及动态比特分配得出量化比特数,下面介绍一下下面这条线的主要内容(1)首先介绍一下什么叫临界频带当某个纯音被以它为中心频率、且具有一定带宽的连续噪声所掩蔽时,如果该纯音刚好被听到时的功率等于这一频带内的噪声

2021-06-16 14:14:09 138

原创 JPEG编码原理及文件格式及代码分析

一 JPEG编码原理首先我们先来看一下JPEG的编码原理图如上图所示,下面进行逐步的分析:1 RGB->YUV首先为了降低互相的关联性,将RGB转换为YUV,这样就可以对亮度信号和色度信号进行分别的处理2 零电平偏置下移由于后面需要对图像进行DCT变换,如果不进行偏移,会使分量值过大,所以在这里采用偏置下移的方法,便于DCT变换量化后直流的系数大大降低,也就降低了数据量。3 分块JPEG标准在处理图片时会先把图片分割成一个个8x8像素的方块,源图像如果不是8x8的整数倍,需进行补

2021-06-09 20:58:44 3525 2

原创 随机信号的参数建模法

为随机信号建立参数模型是研究随机信号的一种基本方法,其含义是认为随机信号是由白噪 x(n)激励某一确定系统h(n)的响应(如图)。只要白噪的参数确定了,研究随机信号就可以转化成研究产生随机信号的系统。下面介绍三种常用的线性模型,分别为MA(Moving Average,滑动平均)模型,AR(Auto-Regression,自回归)模型和ARMA(Auto-Regression-Moving Average,自回归滑动平均)模型。一 MA模型随机信号x(n)由当前的激励w(n)和若干次过去的激励w

2021-06-02 18:49:06 267

原创 DPCM差分预测编码的原理即实现

一 DPCM原理如下图所示为原理实现图由原理图中不难得出整个实现的过程,以本次实验为例,本次实验对图像的各个像素点进行压缩,并且采用左侧预测的方法,即每一个像素点的值输入后,与左边前一个像素点的预测值进行相减,随后经过量化与反量化得到差值,而后用来更新当前的预测值,并为下一个进来的值做准备,那么这个原理的实现过程中,误差的产生主要集中于量化与反量化之间产生的误差,采用不同的量化方式时误差也会不同,举一个实际的例子:比如当前点灰度值为127,当前预测值为120,则dn为7 采用八比特量化,于是先除以二

2021-05-05 16:33:11 1100 3

原创 LZW编码解码原理及编程实现

首先先来介绍一下,LZW的编码原理,LZW编码其实简单来说就是将一个个字符或者字符组映射到一个数字上,这样就会大大减少数据量,将这种映射关系存放在字典里,但是问题是这个字典如果传输给解码端也需要占用一定的空间,所以在这次实验中我们采用的是ASCII码的字典,这样就不用传了,但在解释编码解码原理时采用的是自己定义的字典,下面分别解释编码和解码的原理。一 编码原理初始状态,字典里只有所有的默认项,例如0->a,1->b,2->c。此时P和C都是空的。读入新的字符C,与P合并形成字符串

2021-04-21 19:27:45 1280

原创 结构化数据 半结构化数据 非结构化数据

一 在这里先对三种数据进行简单的介绍结构化最常见,就是具有模式的数据,结构就是模式。大多数应用基于结构化数据。非结构化一般指无法结构化的数据,例如图片,文件,视频…半结构化数据比较有意思,首先它的数据是有结构的,但却不方便模式化,有可能因为描述不标准,有可能因为描述有伸缩性,总之不能模式化。XML和json表示的数据就有半模式的特点。其实用半模式化的视角看待数据是非常合理的。没有模式的限定,数据可以自由地流入系统,还可以自由的更新。这更便于客观的描述事物。在使用时模式才应该起作用,使用者想获取数据就应

2021-04-07 19:54:59 879

原创 BMP序列转YUV文件

本次实验尝试将五张24比特深度的BMP格式图片转换为YUV格式并存储到一个YUV文件中进行播放,那么首先介绍一下BMP文件。一 BMP文件典型的BMP图像文件由四部分组成:1:位图头文件数据结构,它包含BMP图像文件的类型、显示内容等信息;2:位图信息数据结构,它包含有BMP图像的宽、高、压缩方法,以及定义颜色等信息;3:调色板,这个部分是可选的,有些位图需要调色板,有些位图,比如真彩色图(24位的BMP)就不需要调色板;4:位图数据,这部分的内容根据BMP位图使用的位数不同而不同,在24位图中

2021-04-07 19:24:44 109

原创 PNG文件格式分析

一 PNG文件说明PNG,是一种图像文件存储格式,其目的是试图替代GIF和TIFF文件格式,同时增加一些GIF文件格式所不具备的特性。下面根据一个实际的PNG文件来分析其结构。二 文件结构PNG图像格式文件(或者称为数据流)由一个8字节的PNG文件署名(PNG file signature)域和按照特定结构组织的3个以上的数据块(chunk)组成。我们采用FlexHEX打开了一个PNG文件。前八个字节即为文件署名,如图所示可以看出前八个字节为 89 50 4E 47 0D 0A 1A 0A 这可

2021-03-24 19:32:40 457

原创 彩色空间转换:yuv(4:2:0)格式文件转换rgb文件格式转换器

本次实验的目的为将一个yuv(4:2:0)格式的文件转换成一个rgb文件格式的文件,那么首先我们就要先了解一下这两个文件格式都是如何组成的。接下来是我的一些个人理解。**一 介绍文件格式**1 rgb图像文件rgb图像文件每一个像素点灰度值都是用8比特的B分量,8比特G分量,8比特的R分量存放保存,每个像素点依次保存,也就是在读取或写入文件时顺序为BGRBGRBGR…2 yuv文件格式yuv格式分为4种:4:4:4,4:2:2,4:2:0,4:1:1,目前最常用的是 4:2:0格式,本次实验也采

2021-03-24 16:36:46 582 3

原创 计算rgb文件与yuv文件的熵

首先,我们得先了解如何计算熵,下面我们给出信息熵的计算公式好了,现在我们知道了信息熵如何计算,让我们来看一看本次实验的要求。实验要求: 对down.rgb和down.yuv分析三个通道的概率分布,并计算各自的熵。(编程实现)两个文件的分辨率均为256*256,yuv为4:2:0采样空间,存储格式为:rgb文件按每个像素BGR分量依次存放;YUV格式按照全部像素的Y数据块、U数据块和V数据块依次存放。在这里我们采取的是C++的实现方式。1,计算rgb文件的熵首先我们先读取文件FILE* fp =

2021-03-10 19:20:16 244

原创 清音浊音爆破音分析

本次实验运用Audacity软件对清音,浊音,爆破音进行时域和频域的分析和研究1.首先先来介绍一下什么是清音,浊音,爆破音清音:当气流通过声门时,如果声道中某处面积很小,气流高速冲过此处时产生湍流,当气流速度与横截面积之比大于某个临界速度便产生摩擦音,即清音。简单来说,发清音时声带不振动,因此清音没有周期性。浊音:语音学中,将发音时声带振动的音称为浊音爆破音:爆破音是指发音器官在口腔中形成阻碍,然后气流冲破阻碍而发出的音。2.接下来是本人录制的录音,可能会有些许的发音不标准,但以基本可以观察到规律

2021-03-10 15:09:31 1112 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除