Tool Description for AV1 and libaom
这份文件是关于AV1编解码器及其软件实现libaom的主要编码特性的描述。AV1是由开放媒体联盟(AOMedia)制定的开源视频编码格式。以下是文档的核心内容概述:
文档信息:
标题:Tool Description for AV1 and libaom
日期:2021年10月4日
状态:输出文档
目的:提供信息
作者与邮箱:Xin Zhao, Shan Liu, Adrian Grange, Andrey Norkin(邮箱分别为xinzzhao@tencent.com, shanl@tencent.com, agrange@google.com, anorkin@netflix.com)
来源:Tencent, Google, Netflix
AV1编解码器框架:
基于混合视频编码结构,包含预测、变换、量化、熵编码和环路滤波等主要功能模块。
AV1 Bitstream & Decoding Process Specification
这份文件是关于AV1比特流和解码过程的详细技术规范,由Alliance for Open Media(开放媒体联盟)制定。以下是其核心内容的概述:
规范版本和版权信息:
文件版本为1.0.0,包含勘误表1(Errata 1),取代了之前所有版本。
版权所有者为开放媒体联盟,成员和贡献者明确放弃所有明示或暗示的保证。
AV1视频编解码器:
定义了AV1视频编解码器的比特流格式和解码过程。
文档结构:
包括术语和定义、符号和缩写术语、通用约定等。
比特流结构:
描述了比特流的低开销格式、OBU(Open Bitstream Units)语法、序列头OBU语法、帧头OBU语法等。
A Neural Enhancement Post-Processor with a Dynamic AV1 Encoder C
这篇文件是一篇关于视频压缩和增强的学术论文,标题为“A Neural Enhancement Post-Processor with a Dynamic AV1 Encoder Configuration Strategy for CLIC 2024”,作者是Darren Ramsook和Anil Kokaram,来自爱尔兰都柏林三一学院电子与电气工程系的Sigmedia Group。以下是这篇论文的核心内容概述:
摘要:
论文提出了一种结合神经网络后处理器和动态优化策略的新型视频压缩方法,旨在改善实际流媒体比特率下的视频压缩质量。
神经后处理器通过对抗性训练进行优化,并使用感知损失函数,显著提升了视频保真度。
实验结果显示,在50 kb/s和500 kb/s的比特率下,神经后处理器分别实现了+6.72和+1.81的VMAF(视频多方法评估融合)分数提升。
Fast Transform Kernel Selection Based on Frequency Matching and
这篇论文的核心内容是关于一种针对Alliance for Open Media Video 1 (AV1)编码的快速变换核选择算法。以下是关键点的总结:
1. **研究背景**:变换编码是视频编码的一个基本组成部分,通过将空间域中分散的能量集中在频域的左上角区域,与量化和熵编码相结合,显著提高了码率-失真(Rate-Distortion, RD)性能。AV1引入了多种变换核以适应图像内容的动态特性,但这增加了计算复杂性。
2. **问题陈述**:AV1中的多种变换核虽然带来了编码性能的提升,但也导致编码过程的复杂度大大增加,尤其是在Rate-Distortion Optimization (RDO)中。
3. **提出的算法**:论文提出了一种基于频率匹配和概率模型的快速变换核选择算法,旨在有效加速编码过程,并保持可接受的性能损失水平。
4. **频率匹配因子(FMF)**:首次定义了基于余弦相似度的频率匹配因子,用以描述残差块与变换核的主频率基图像之间的相似性。
5. **概率模型**:利用FMF与归一化RD优化成本(nRDOC)之间的分布关系,为每个FMF建立了高斯正态概
Video Coding with Cross-Component Sample Offset
这篇文件是一篇关于视频编码技术的研究论文,题为《Video Coding with Cross-Component Sample Offset》,由Han Gao、Xin Zhao、Tianqi Liu和Shan Liu共同撰写,发表在《IEEE Transactions on Image Processing》上。以下是该论文的核心内容概述:
摘要:
论文提出了一种新的视频编码方法,名为Cross-Component Sample Offset(CCSO),旨在提高编码效率和视觉质量。
CCSO利用Y’CbCr颜色空间中不同颜色分量之间的统计相关性,特别是亮度(Y)分量通常比色度(Cb/Cr)分量包含更精细的细节。
CCSO通过查找表实现无乘法的非线性映射过程,输入为一组重建的亮度样本,输出为中心亮度或共位色度样本的偏移值。
实验结果表明,CCSO可以应用于图像和视频编码,已被Alliance for Open Media (AOMedia)采纳,并在下一代视频编解码器中实现显著的编码增益。
ENCODING TIME AND ENERGY MODEL FOR SVT-AV1 BASED ON VIDEO COMPLE
这篇论文的核心内容是提出了一个基于视频复杂性的SVT-AV1编码时间和能量模型。以下是关键点的总结:
1. **背景**:在线视频流量在全球二氧化碳排放量中所占份额稳步增长。视频压缩技术不断优化以满足对视频媒体的需求,但这导致计算需求增加,从而增加了视频编码器的能耗。
2. **研究目的**:为了在压缩效率和能耗之间找到最佳平衡,对一系列编码参数建模编码能量是至关重要的。
3. **模型提出**:论文提出了一个基于经验关系的SVT-AV1编码时间和能量模型,这些关系涉及编码时间、视频参数和编码器配置。此外,还考虑了视频内容的影响,通过使用空间和时间信息等已建立的内容描述符进行建模。
4. **模型细节**:
- 定义了SVT-AV1的高级别编码能量模型,该模型依赖于编码视频序列所需的处理时间。
- 提出了一个单核编码时间模型,基于视频参数和编码器配置,如预设配置。
- 通过测试文献中常见的内容描述符来研究视频内容的影响。
- 使用线性模型来预测预期的能耗,以验证可以使用任何时间模型来估计编码能量。
5. **内容依赖性**:假设视频序列的内容影响对预期
Comparison of Compression Efficiency between HEVC/H.265, VP9
这篇文件是一篇关于视频压缩效率的学术论文,主要比较了AV1、VP9和HEVC/H.265三种视频编码标准。
客观指标显示AV1和HEVC/H.265在大多数情况下优于VP9。
主观评分显示AV1在大多数情况下优于VP9,并且在中等比特率下,AV1和HEVC/H.265的性能相似。
结论:
AV1在压缩效率上显著优于VP9。
HEVC/H.265在某些情况下需要略少的比特率来达到与AV1相似的客观质量,但这种差异很小,并且高度依赖于测试内容。
STUDY ON CODING TOOLS BEYOND AV1
这篇论文《STUDY ON CODING TOOLS BEYOND AV1》由Xin Zhao等人撰写,主要内容是探索超越现有AV1视频编码标准的新一代视频编码工具。
论文提出了一套新的编码工具包,这些工具在libaom代码库上进行了研究、实现和测试,旨在探索超越AV1的视频压缩工具。
实验结果显示,与libaom相比,提出的方法在全内编(All Intra)编码配置下,对各种图像和视频内容实现了平均8.0%(最高22.0%)的BD-rate降低。
Performance Comparison of VVC, AV1, HEVC, and AVC
这篇论文《Performance Comparison of VVC, AV1, HEVC, and AVC for High Resolutions》由Miroslav Uhrina、Lukas Sevcik、Juraj Bienik和Lenka Smatanova撰写,发表在《Electronics》期刊2024年第13卷上。论文主要对当前最常用视频编解码器H.266/VVC、AV1、H.265/HEVC和H.264/AVC在高分辨率视频压缩性能进行了比较分析。
Neighbourhood Representative Sampling for Efficient End-to-end
这篇论文的标题是《Neighbourhood Representative Sampling for Efficient End-to-end Video Quality Assessment》,作者是 Haoning Wu, Chaofeng Chen, Liang Liao, Jingwen Hou, Wenxiu Sun, Qiong Yan, Jinwei Gu, Weisi Lin。论文主要研究了针对高分辨率视频的高效深度视频质量评估(VQA)方法。
MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos
这篇论文的标题是《MD-VQA: Multi-Dimensional Quality Assessment for UGC Live Videos》,作者包括来自上海交通大学的Zicheng Zhang, Wei Sun, Dangyang Tu, Wei Lu, Xiongkuo Min, Guangtao Zhai,以及来自阿里巴巴集团的Wei Wu和Ying Chen。这篇论文主要关注于用户生成内容(UGC)直播视频的多维度质量评估(MD-VQA)。
Modular Blind Video Quality Assessment
论文提出了一种模块化的盲视频质量评估(Blind Video Quality Assessment, BVQA)模型,用于改善端用户在各种基于视频的平台和服务上的观看体验。
当前基于深度学习的模型通常在高度子采样的格式下分析视频内容,而忽视了实际空间分辨率和帧率对视频质量的影响。
该模型包括基础质量预测器、空间校正器和时间校正器,分别响应视觉内容和失真、空间分辨率和帧率变化对视频质量的影响。
通过在训练过程中以一定概率丢弃空间和时间校正器,增强了基础质量预测器作为独立BVQA模型的性能。
实验表明,所提出的质量模型在专业生成内容和用户生成内容视频数据库上达到了优越或可比的性能。
Performance of AV1 Real-Time Mode
COVID-19疫情增加了人们对数字互动的兴趣,从而使得实时或低延迟编解码器受到更多关注。
大多数编解码器生态系统,包括AV1,一直专注于编码效率,这是视频点播(VOD)用例的主要改进目标。
很少有文献涉及实时编解码器。
本研究专注于解释VOD和交互式用例从编解码器角度的差异,区分了延迟和吞吐量,并展示了降低前者以实现交互延迟与实现最大编码效率是正交的。
通过测量编码文献中的全高清视频序列,比较了H.264、VP8、VP9和AV1在实时模式下的性能。
An Overview of Core Coding Tools in the AV1 Video Codec
这篇文件是一篇关于AV1视频编解码器核心技术的概述。AV1是由开放媒体联盟(AOMedia)在2018年初联合开发并最终确定的开源、免版税的视频压缩格式。其主要目标是在保持实用的解码复杂性和硬件可行性的同时,实现比现有编解码器更高的压缩效率。本文提供了AV1中关键编码技术的简要技术概述,并与VP9和HEVC进行了初步的压缩性能比较。
Fraunhofer Versatile Video Encoder (VVenC) v0.1
这份文件是关于Fraunhofer Versatile Video Encoder (VVenC) v0.1版本的文档,由Fraunhofer Heinrich Hertz Institute (HHI)的视频编码与分析部门的Jens Brandenburg, Adam Wieckowski, Tobias Hinz, Benjamin Bross撰写
Thriving in a Crowded and Changing World: C++ 2006–2020
这份文件是 Bjarne Stroustrup 撰写的关于 C++ 语言从 2006 年到 2020 年发展的文章,标题为 "Thriving in a Crowded and Changing World: C++ 2006–2020"。Bjarne Stroustrup 是 C++ 语言的创始人,文章讨论了 C++ 在面对新兴编程模型、硬件架构演变、新应用领域的重要性增加以及许多有资金支持和专业营销的其他编程语言的竞争中如何保持活力。
NLMP 图像降噪算法源码
内容是关于一种图像去噪算法——非局部均值(Non-Local Means, NLM)算法的快速且开源的实现。以下是文章的主要要点:
算法介绍:文章提出了一种快速且无参数的NLM算法实现,该算法用于去除图像中的噪声。NLM算法由Antoni Buades, Bartomeu Coll和Jean-Michel Morel在2005年引入,因其简单性、出色的视觉效果以及利用自然图像的非局部冗余性而受到广泛欢迎。
算法改进:文章基于线之和的计算来计算块距离,这些线在块移位下是不变的。通过从一个图像数据库中计算NLM的最佳参数(以平均峰值信噪比PSNR为标准),实现了一个无需参数调整的NLM算法。
A non-local algorithm for image denoising
这篇文章的核心内容是介绍一种新的图像去噪算法——非局部均值(Non-Local Means, NL-means)算法。以下是文章的主要要点:
方法噪声:文章首先提出了一种新的衡量标准,即方法噪声,用于评估和比较不同数字图像去噪方法的性能。
去噪算法:去噪的目标是从带噪声的测量中恢复原始图像,其中噪声通常被模拟为高斯白噪声。
去噪方法:许多去噪方法的核心思想是通过平均来实现去噪,包括局部平滑滤波器、变分法(如全变分最小化)、频域滤波器(如经验维纳滤波器和阈值小波方法)等。
NL-means算法:文章提出了一种新的基于非局部平均的去噪算法,称为NL-means。该算法利用图像中所有像素的信息,通过比较像素邻域的相似性来计算权重,然后进行加权平均。
Parameter-Free Fast Pixelwise Non-Local Means Denoising
这篇文章的核心内容是关于一种图像去噪算法——非局部均值(Non-Local Means, NLM)算法的快速且开源的实现。以下是文章的主要要点:
算法介绍:文章提出了一种快速且无参数的NLM算法实现,该算法用于去除图像中的噪声。NLM算法由Antoni Buades, Bartomeu Coll和Jean-Michel Morel在2005年引入,因其简单性、出色的视觉效果以及利用自然图像的非局部冗余性而受到广泛欢迎。
算法改进:文章基于线之和的计算来计算块距离,这些线在块移位下是不变的。通过从一个图像数据库中计算NLM的最佳参数(以平均峰值信噪比PSNR为标准),实现了一个无需参数调整的NLM算法。
MESHFLOW VIDEO DENOISING
Meshflow 视频降噪算法来自于 2017 年电子科技大学一篇高质量论文。该论文提出了一个新的运动模型MeshFlow,它是一个空间平滑的稀疏运动场 (spatially smooth sparse motion field),其运动矢量 (motion vectors) 仅在网格顶点 (mesh vertexes) 处定义,它可被视为一个下采样的dense flow。具体来说,我们在视频帧上放置一个2D网格,然后跟踪连续帧之间的图像角点 (image corners),从而在每个特征位置生成运动矢量,然后将这些运动矢量转移到其对应的附近网格顶点,以使每个顶点从其周围特征中累积几个运动。MeshFlow是一个稀疏的运动矢量2D数组,其包含所有网格顶点处的运动。
一篇关于图像和视频去噪技术的研究论文,它介绍了一种基于稀疏3D变换域的协同滤波方法
"Image and video denoising by sparse 3D transform-domain collaborative filtering" 是一篇关于图像和视频去噪技术的研究论文,它介绍了一种基于稀疏3D变换域的协同滤波方法。这种方法的核心思想是利用图像或视频中的空间和时间冗余信息来去除噪声
ARM Limited 发布的《RealView 编译工具 4.0 版编译器参考指南》
这份文件是 ARM Limited 发布的《RealView 编译工具 4.0 版编译器参考指南》(文档编号 ARM DUI 0348BC),它提供了关于 RealView 编译工具(RVCT)的详细信息,特别是 ARM 编译器 armcc 的使用。以下是该文件的核心内容概要:
版本信息和所有权声明:文档提供了版权信息,声明了 ARM Limited 的商标权利,并指出了文档的保密状态和产品状态。
ARM 编译器介绍:介绍了 ARM 编译器的基本信息,包括其对 C 和 C++ 代码的支持,以及能够生成的代码类型(如 32 位 ARM 代码、16/32 位 Thumb-2 代码和 16 位 Thumb 代码)。
编译器命令行选项:详细列出了 ARM 编译器支持的所有命令行选项,这些选项允许用户控制编译器的行为,如优化级别、代码生成等。
语言扩展:介绍了 ARM 编译器提供的语言扩展,包括 C99 功能、标准 C 和 C++ 扩展以及 GNU 语言扩展。
编译器特有的功能:详细列出了 ARM 特有的关键字、运算符、编译指示、内在函数、宏等。
《2024音视频技术发展报告》,由LiveVideoStack出品,旨在深入了解流媒体和RTC(实时通信技术)的从业情情况
这份文件是《2024音视频技术发展报告》,由LiveVideoStack出品,旨在深入了解流媒体和RTC(实时通信技术)的从业情况,把握音视频新技术的发展方向。
LiveVideoStack成立后,行业对音视频技术人才的需求增加,促使LiveVideoStack进行调研分析。
研究方法包括桌面研究、问卷调查、专家访谈和数据分析。
WebM 项目提供的一个开源视频编解码库libvpx
libvpx 是由 WebM 项目提供的一个开源视频编解码库,广泛应用于互联网视频流和 Web 视频应用中。通过与 FFmpeg 的集成,用户可以处理 VP8 和 VP9 格式的视频,这两者都是在网络上传输视频的高效格式。
FFmpeg 可以利用 libvpx 库进行 VP8 和 VP9 的解码和编码。
要启用对 libvpx 的支持,用户需要访问 libvpx 的官方网站(http://www.webmproject.org/)并按照安装说明进行操作,然后在配置 FFmpeg 时通过 --enable-libvpx 选项来启用它。
libvpx 支持 VP8 和 VP9 编码,这对于希望在 FFmpeg 中使用这些编解码器的用户来说是必要的。
ffmpeg 手册合集,全面介绍ffmpeg
FFmpeg是一个开源的计算机程序,它包含了一套可以用来录制、转换数字音频、视频,并能将其转换成流的工具和库。FFmpeg广泛应用于视频转换、处理和流化等多个领域。以下是FFmpeg的一些关键特性和应用:
音视频转换:FFmpeg可以将视频文件从一种格式转换为另一种格式,支持几乎所有流行的视频和音频格式。
解码和编码:FFmpeg包含许多不同的解码器和编码器,可以用于转换视频和音频数据。
复用和解复用:FFmpeg可以处理容器格式,如将视频和音频流复用到一个文件中,或从容器格式中提取单独的流。
视频处理:FFmpeg提供了多种视频处理功能,包括裁剪、缩放、旋转、滤镜应用等。
音频处理:除了视频处理外,FFmpeg也支持音频处理,如混音、调整音量、转换采样率等。
实时流处理:FFmpeg可以用于实时流媒体的捕获、转码和推送到流媒体服务器。
命令行工具:FFmpeg通过命令行界面操作,提供了强大的脚本和自动化处理能力。
编程库:FFmpeg还提供了一套编程库(libavcodec、libavformat、libavfilter等),供开发者在自己的应用程序中使用。
FSIM: A Feature Similarity Index for Image Quality Assessment
FSIM: A Feature Similarity Index for Image Quality Assessment
传统的全参考图像质量评价标准FSIM(Feature similarity,特征相似度);ssim一经提出引来了很多人的研究,并在其上进行了一些列的变种,其中一种比较成功的算法就是FSIM,该算法认为一张图片中的所有像素并非具有相同的重要性,比如物体物体边缘的像素点对于界定物体的结构肯定比其他背景区域的像素点更为重要;另外一种重要的评价指标VIF尽管在不同的子带上具有不同的权重,但是在具体的某一子带上参与计算的像素点均具有 相同的权重;根据图像本身的特点,这样不加区分并不合适;因此改进的方向实际上重在如何区分这些重要点并给予合适的权重。
视频评价工具AVQT介绍
视频评价工具AVQT介绍,用于评价视频质量,是全参考评价算法,其中也包括了PSNR、SSIM、MSE等传统的算法,非常详细的使用说明。
是Apple开发的一款集成到Mac系统中的算法。
利用终端即可使用,具体可以参考文章所介绍
BLIND/REFERENCELESS IMAGE SPATIAL QUALITY EVALUATOR
BLIND/REFERENCELESS IMAGE SPATIAL QUALITY EVALUATOR
H.264若干关键模块并行算法设计与基于 CUDA的实现
H.264若干关键模块并行算法设计与基于 CUDA的实现,通过本片论文可以深度研究h264并行优化算法以及关于CUDA的相关算法。
基于机器学习的HEVC屏幕内容编码与视频传输技术研究
Research on HEVC screen content coding and video transmission technology based on machine learning
基于机器学习的HEVC屏幕内容编码与视频传输技术研究
特点:桌面内容编码、HEVC、机器学习、视频传输、视频编解码优化
基于深度学习的桌面内容编码快速预测
DeepSCC- Deep Learning Based Fast Prediction Network for Screen Content Coding
x265.a linux version
x265.a liunx version
Region-of-interest determination and bit-rate conversion
Region-of-interest determination and bit-rate conversion for H.264 video transcoding
A Fast and Efficient Inter Mode Decision Algorithm for the H.264
A Fast and Efficient Inter Mode Decision Algorithm for the H.264/AVC Video Coding Standard
x265-3.5 版本源码
最新版本 x265 源码,更新到 3.5 版本,新增加了更多的算法,兼容各类平台,包括 Windows、Mac(Intel、ARM)、Linux 等;
里面的算法值得反复调试分析并在此基础上去优化。
A Fast Sub-pixel Motion Estimation Algorithm for H.264/AVC Video
此篇论文是基于 JM 的 H264 的亚像素运动估计的快速算法。
该论文级别较高,属于 SCI级别,值得反复研究分析;
该论文里的算法思想相对比较新颖,虽然是基于 JM,但完全可以应用到 x264、openh264 等开源编码器中来加速亚像素的运动估计模块;
从结论上可以看到,差不多无质量损失情况下,减少接近 50%的亚像素搜索点,也就相当于减少一般的亚像素编码耗时,进一步减少整体的编码时间。
基于分层判断的 x264 快速模式选择算法
基于 x264 的快速模式选择算法,加快编码速度,优化 x264 模式选择模块,使得 x264 在实际应用中消耗更少的性能。
本篇论文相对也属于较高的水平,虽然里面算法与最新的 x264 版本内容有些许出入,但一些核心思想值得参考和借鉴。
特征相似度的源码,fsim.m
特征相似度评价算法远吗,Matlab实现代码
视频图像评价算法,iqa-1.1.2,包含各类典型经典评价算法
适合在视频和图像领域进行算法研究的开发者,经典算法有参考意义。
x265_2.8源码
最新的源码库,2.8版本相对于以前有部分更新,值得研究。