自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 Opencv报错:Failed to load OpenH264 library: openh264-1.8.0-win64.dll 解决方法

Opencv报错:Failed to load OpenH264 library: openh264-1.8.0-win64.dll 解决方法

2022-10-29 19:33:10 2590 4

原创 Pytorch深度学习代码技巧

Pytorch深度学习代码技巧

2022-06-20 21:56:18 973

原创 MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based VQA 论文阅读 From CVPR 2022

MuKEA:基于视觉问答(VQA)的多模态知识抽取与积累论文下载:https://arxiv.org/abs/2203.09138github代码:https://github.com/AndersonStra/MuKEA一、研究背景结合外部知识的VQA任务( Knowledge based VQA)需要AI能够利用到超出输入图像、问题之外的额外知识。近年来,尽管一些KB-VQA的方法取得了一定成果,但离像人类一样利用知识的能力仍相去甚远。外部知识能够辅助AI进行知识推理,从而得到更为准确的答

2022-04-20 17:26:18 3766 1

原创 HEVC/H.265编码原理

一、HEVC简介随着现代通信技术的发展,视频拍摄设备变得便携化、轻量化,各类剪辑软件的开发升级也使得视频的制作变得更加的容易,大量涌现的网络视频平台为视频发布和传播提供了必不可少的渠道,这使得互联网中的视频指数性地逐年增加。而海量视频在网络中的传输给网络带宽和数据存储提出了不小的挑战,如何在保证视频质量的同时有效地进行数据压缩是新一代视频编码需要解决的问题。2013年,由国际标准组织ITU-TVCEG和ISO/IECMPEG成立的联合视频工作经过多次会议,讨论、研究并指定了高效视频编码标准HEVC(Hi

2022-02-26 21:46:54 6078 1

原创 信源编码量化实验

用给定量化器进行图像量化重建实验,量化方式为均匀量化,项目中 uqimg_enc 与 uqimg_dec 分别为标量量化的量化器和解码器,其中量化器参数的输入方式为:-i [输入图像文件路径] -o [输出量化文件路径] -b [量化比特数]解码器的参数输入方式为-i [输入量化文件路径] -o [输出图像文件路径]选择任意一副图像 (选用了sensin.img)分别进行 1、2、4、6 不同量化比特数的量化,计算压缩效率与PSNR指标,结果如下:原始图像:量化重建图像:其中PSNR

2021-11-18 20:18:18 607

原创 霍夫曼编码实验

霍夫曼编码实验霍夫曼(Huffman)编码是经典的无损编码方式,在实际应用中, Huffman编码通常与其他编码技术一起使用。本周根据《数据压缩导论(第四版)》的课后代码进行霍夫曼编码实验。实验所用到的Sena 、Sensin、Omaha原图像均为256x256像素大小的8位灰度图:根据 Read.me 文件的引导,代码的运行用到项目的命令参数,其中argc,argv参数的使用方法如下:void main(int argc, char **argv)/*argc是命令行总的参数个数;argv[

2021-10-14 18:35:24 922

原创 H.264编解码原理及实验

H.264编码原理简介H.264是由ITU-T视频编码专家组(VCEG)和ISO/IEC运动图像专家组(MPEG)联合组成的联合视频组(JVT,Joint VideoTeam)提出的新一代数字视频压缩标准。其优点在于注重对移动和IP网络的适应,采用分层技术,从形式上将编码和信道隔离开来,实质上是在源编码器算法中更多地考虑到信道的特点,编码原理可由如下流程表示:解码流程:除此之外,H.264引进了更先进的模块:帧内预测在空间域进行帧内预测,提高帧内编码的精确度。运动估计与运动补偿不同尺寸的

2020-09-02 13:16:38 1028

原创 随机信号的参数建模法

随机信号的参数建模法在对随机信号的研究和处理中,根据其参数建立相应的参数模型是一种重要的方法。随机信号的参数建模法可以应用在语音信号的编码过程中:对不同的物理过程产生的声音信号建立数学模型,根据语声模型提取语音信号的特征参数,对参数进行编码传输,接收端根据特征参数重建语音信号 。随机信号的参数建模法将随机信号 x(n)x(n)x(n) 看做是由白噪声 w(n)w(n)w(n) 激励某一确定系统的响应:对于平稳随机信号,有三种常用的线性模型: AR 模型(自回归模型 Auto-regression m

2020-06-21 17:43:19 461

原创 MPEG-1音频编码原理与实验

MPEG-1 Audio Layer-2简介MPEG-1是为CD光盘介质定制的视频和音频压缩格式,输入为16位的PCM信号,采样率为32,44.1或 48kHz; 输出为32kbps到384kbps。其音频压缩部分分为三层:MPEG-1 Layer1,MPEG-Layer2以及MPEG-Layer3,高层兼容低层。在数字电视领域中,通常使用第二层即MPEG-Layer2,采用共同频域和时域掩蔽效应的心理声学模型,并对高、中,低频段的比特分配进行限制,并对比特分配、比例因子,取样进行附加编码。编码器流程

2020-06-14 21:35:51 3285 2

原创 傅里叶变换的时移特性

对一个100点的脉冲序列进行FFT变换,绘制出频谱,再将脉冲时移,同样进行FFT变换,比较二者的频谱,验证傅里叶变换的时移特性。MATLAB代码:clc;clear;close all;N=100;y1=ones(1,5);y2=[y1,zeros(1,N-5)];y3=[zeros(1,N-5),y1];f1=fft(y2);f2=fft(y3);t=0:1:N-1;figure;subplot(231);stem(t,y2);title('原脉冲信号');subplot

2020-06-06 21:47:34 12218 1

原创 完全重建QMF滤波器组及MATLAB实现

正交镜像滤波器组(QMFB)两通道正交镜像滤波器组(QMFB,Quadrature Mirror Filter Banks)是基于多抽样率技术的滤波系统,一个QMFB可以用如下的流程图表示:在分析滤波器一侧,输入信号(设为宽带信号)被分为k个子带信号(窄带信号),对子带信号进行抽取,以降低采样率;在综合滤波器一侧,经过零值内插和带通滤波可以重建原来的信号。若重建的信号 X′(nT)X'(nT)X′(nT) 与输入信号 X′(nT)X'(nT)X′(nT) 满足以下关系:X′(nT)=cX[(n−n

2020-06-05 20:04:05 1089

原创 JPEG编码原理与解码分析

JPEG编码原理JPEG(Joint Photographic Experts Group)是JPEG标准的产物,该标准由国际标准化组织(ISO)制订,是面向连续色调静止图像的一种压缩标准。JPEG格式是最常用的图像文件格式,后缀名为.jpg或.jpeg。JPEG标准中,规定了四种模式,以满足不同的需要:基于DPCM的无损编码模式:压缩比可达2:1基于DCT的有损顺序编码模式:压缩比可达10:1以上基于DCT的递增编码模式基于DCT的分层编码模式基本的JPEG编码原理可以用图如下的流程图表

2020-05-31 23:43:31 12913

原创 最小二乘法解法总结:梯度下降法、牛顿法、高斯-牛顿法

最佳预测系数推导E[d2]=E[(S(k)−Se(k))2]=E[(S(k)−∑i=1NaiS(k−i))2]E[d^2]=E[(S(k)-S_e(k))^2]=E\Bigg[\bigg(S(k)-\sum_{i=1}^Na_iS(k-i)\bigg)^2\Bigg]E[d2]=E[(S(k)−Se​(k))2]=E[(S(k)−i=1∑N​ai​S(k−i))2]对系数 aia_iai​ 求偏导,使偏导数等于0:∂E[d2]∂ai=0,i=0,1,2......,N\frac{\partial E[

2020-05-18 15:43:20 911

原创 DPCM压缩编码原理及C++实现

DPCM基本原理DPCM(差分脉冲编码调制)是一种典型的预测编码系统。在传输图像、视频数据的时候,相邻的像素点的值往往差别很小,在空间上存在很大的冗余,DPCM便是利用这种冗余,通过相邻像素对当前像素的值进行预测,对图像进行数据压缩。DPCM编解码原理图示:量化:DPCM当前像素和预测像素得误差值进行量化,以8bit量化为例,误差值的范围在【-255,255】之间,所需要的容量为9bit。将值为负的像素进行单极性化,即加255,故Nbit量化便为加255再除以2^(9-n)。重建图像时,将差值和预

2020-05-11 10:37:32 1997

原创 LWZ压缩编码原理与C++实现

LWZ编码原理LZW算法又叫“串表压缩算法,”就是通过建立一个字符串表,用较短的代码来表示较长的字符串来实现压缩,提取原始文本文件数据中的不同字符,基于这些字符创建一个编译表,然后用编译表中的字符的索引来替代原始文本文件数据中的相应字符,减少原始数据大小。编码流程步骤1:将词典初始化为包含所有可能的单字符,当前前缀P初始化为空。步骤2:当前字符C=字符流中的下一个字符。步骤3:判断P+C...

2020-04-25 22:26:03 4324 1

原创 C++编程:TGA2YUV

一、TGA文件简介TGA是由美国Truevision公司为其显示卡开发的一种图像文件格式,扩展名为.tga。TGA格式是计算机上应用最广泛的图象格式。在兼顾了BMP的图象质量的同时又兼顾了JPEG的体积优势,支持无损压缩,并且还有自身的特点:通道效果、方向性。二、TGA文件解析TGA文件包含五个区域:1. TGA文件头(TGA File Header)2. 图像/颜色表数据(Image/...

2020-04-13 00:01:03 262

原创 PNG格式的数据结构

一、什么是PNG格式?PNG是便携式网络图形的英文缩写,是一种常用的图片格式,其特点是压缩比高、体积小,并且是无损压缩,支持透明效果,支持真彩和灰度级图像的Alpha通道透明度,最高支持24位真彩色图像以及8位灰度图像。除此之外,PNG支持文件的流式读/写。二、PNG格式的文件结构PNG图像格式文件(或者称为数据流)由一个8字节的PNG文件署名(PNG file signature)域和按照...

2020-03-31 21:48:54 2929

原创 彩色空间转换实验:RGB2YUV

实验原理一、YUV与RGB空间的转换在电视原理中我们学到过YUV与RGB的转换公式如下:Y=0.2990R+0.5870G+0.1140BV=0.7010R-0.5870G-0.1140BU=-0.2990R-0.5870G+0.8860B除此之外,还需要对两个色差信号进行归一化,使得压缩后的色差信号动态范围控制在0.5以内,所以最终的转换公式为:Y=0.2990R+0.5870G+...

2020-03-29 23:54:15 1501 2

原创 C++读取一个RGB文件,并统计其R\G\B三个分量的概率数据和熵

用C++读取一个分辨率为256x256的RGB文件(24bit),其二进制形式如下:现用C++编程实现对其文件的读取,RGB分量的数据概率统计,计算RGB的熵值,并将统计的结果输入到TXT文件中,C++代码实现如下:#include<stdio.h>#include<math.h>#include #pragma warning(disable:4996);i...

2020-03-16 15:37:55 761

原创 主成分分析(PCA)原理、步骤

PCA背景简介在许多领域的数据的分析和处理中,往往会有许多复杂的变量,变量与变量之间通常还存在着相关性,要从大量的变量中提取出能反映事物特征的信息是极其困难的,对单个的变量分析不全面,并且会损失信息,造成错误的结论。主成分分析(PCA)便是通过数学降维,找出最能决定数据特性的主元成分的数据分析方法,用较少的综合指标,揭示隐藏在多维复杂数据变量背后的简单结构,得到更为科学有效的数据信息。PCA降...

2020-02-24 12:40:09 4721 1

原创 C++中的数据类型

1. 整形整形有4种:int、short(16位)、long(32位)、longlong(64位),每种都有signed(有符号,默认)、unsigned(无符号)两种分类,有符号整数既可以表示非负整数,又可以表示负整数;但是,无符号整数不能表示负数,只能表示非负整数。2. 字符型字符型有Char(8位)、wchat_t(16位)、char16_t(16位unicode)、c...

2020-02-16 21:39:45 532

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除