自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

www_dong的博客

探寻——代码之上

  • 博客(916)
  • 收藏
  • 关注

原创 HEVC(十七):CQP

CQP 是一种不考虑人眼视觉特性的纯数学编码模式,它通过将固定的量化步长(QP)死板地应用到所有画面中,追求绝对的客观失真度恒定,虽适合学术研究与标准跑分,但因无法动态优化码率而极易造成带宽和空间的巨大浪费。CQP,即恒定量化参数模式。在这种模式下,编码器被显式指定一个固定的量化参数(Quantization Parameter,简称QP。

2026-06-13 21:59:47 204

原创 HEVC(十六):CRF

CRF 是一种利用人眼视觉掩蔽效应的单次编码模式,它在人眼敏感的平滑区域降低压缩率保画质、在不敏感的高纹理与高运动区域加大压缩率省带宽,从而以最经济的码率波动实现恒定的感知视觉质量。CRF 是现代视频编码器中闪烁着数学与人类生理学智慧结晶的技术。它不仅仅是冷冰冰的数字压缩,而是充分利用了“人眼会欺骗大脑”的生理特性。本地离线视频压制、影视资源归档、公共视频分享平台(配合 VBV)、对画质有严格追求的短视频导出。

2026-06-13 21:58:00 294

原创 HEVC(十五):RDOQ

RDOQ(率失真优化量化)就是视频编码里的“抹零与砍价专家”:在把画面差值数字变小(量化)时,它不再死板地四舍五入,而是挨个计算——“这个数字如果主动把它变小、甚至直接抹成 0,虽然画质会多丢一点点,但能不能省下巨额的流量(码率)”,只要划算,它就果断砍一刀。在 HEVC 的残差编码中,变换块最后一个非零系数的坐标XY(X, Y)XY是一个极其昂贵的语法元素。一旦锁定了最后一项,其后面的所有全 0 系数都不再需要传输任何标志位。算法会从最高频的系数开始向前扫描,尝试将当前边缘的非零系数。

2026-06-11 22:57:45 187

原创 HEVC(十四):再谈RDO

RDO(率失真优化)就是视频编码器里的“性价比终极考量”:它把画面切成无数个小块,让每一种画质配置和划分方式都去PK同一个公式——“谁能用最少的流量(码率)换来最清晰的画面(最小失真),谁就胜出”。HEVC 的RDO(率失真优化)是通过拉格朗日乘子λ\lambdaλ架起的一座桥梁,它把本无法直接相加的两个物理量——主观画质的物理损耗(失真DDD与客观世界的网络资源(码率RRR成功统一在同一个价值评价体系内。

2026-06-11 22:56:11 193

原创 HEVC(十三):λ域码率控制

λ\lambdaλHEVC 的λ\lambdaλ域码率控制算法通过引入拉格朗日乘子作为核心控制变量,成功解耦了复杂的码率与量化参数之间的间接物理关系,建立了典雅而高效的R−λR-\lambdaR−λ数学映射。它通过四级递进的控制链条,配合灵敏的闭环反馈调节,在 HM 和实际商用编码器中展现了统治级的控制精度。随着视频技术的向前演进(如 VVC/H.266 标准的落地、HDR 高动态范围视频的普及),现代前沿的码率控制研究正沿着两个方向对经典的λ\lambdaλ。

2026-06-11 22:55:15 329

原创 HEVC(十二):基于块匹配的运动估计算法与算法优化

相较于 H.264 固定大小的宏块(16×1616\times1616×16),HEVC 的预测单元(PU)支持从64×6464\times6464×64到4×44\times44×4的多尺度划分,并引入了非对称运动划分(AMP,如24×6424\times6424×6464×4864\times4864×48等)。这意味着对于一个64×6464\times6464×64。

2026-06-10 20:46:36 446

原创 HEVC(十一):自适应量化VAQ

自适应量化的核心理论支撑是人类视觉系统(HVS)的掩蔽效应(Masking Effects)。如天空、墙面或人脸皮肤。这些区域纹理简单,HVS 对其中的噪声、方块效应或模糊极其敏感。如果量化过粗,极易察觉到伪影。因此,平滑区域需要降低 QP(变细量化)。如草地、树枝或织物。这些区域本身包含大量高频信息,由于纹理掩蔽效应(Texture Masking),HVS 很难察觉到其中温和的量化噪声。因此,这些区域可以提高 QP(变粗量化),从而省下码率。

2026-06-10 20:45:06 155

原创 HEVC(十):码率控制

HEVC的码率控制是一门平衡的艺术。它成功将传统的Q−RQ-RQ−R二次源模型演进为更加精准、适应RDO架构的R−λR-\lambdaR−λ动力学模型,实现了在多层级(GOP-Frame-CTU)下的精细化比特调配。数据驱动与AI结合:利用深度学习(如强化学习、CNN)来预测R−λR-\lambdaR−λ模型的复杂参数,代替传统滞后的线性回归。多标准协同演进:HEVC 中沉淀下来的R−λR-\lambdaR−λ。

2026-06-09 22:10:11 554

原创 HEVC(九):RDO率失真优化

RDO是的缩写,中文翻译为率失真优化。在有限的带宽(码率)限制下,帮助编码器自动寻找画质最好(失真最小)的编码参数组合。率失真优化(RDO)是 HEVC 乃至现代所有先进视频编码标准(如 VVC, AV1)的灵魂。它通过拉格朗日乘子将复杂的物理世界(带宽与画质)统一抽象为数学之美。在视频流媒体系统的构建中,理解 RDO 能够帮我们更好地理解编码速度(Preset)、画质与码率(CBR/VBR/CRF)之间的动态平衡。随着深度学习的发展,基于生成式 AI 和强化学习预测的 RDO 决策。

2026-06-09 22:09:07 399

原创 HEVC(八):Profile、Level和Tier

Profile 决定了算法的复杂边界(工艺广度),Level 决定了像素的处理时钟(算力速度),Tier 决定了数据的吞吐带宽(网络/存储厚度)。能够识别 10-bit 和 4:2:0 的色度预测工具(Main 10其硬件时钟能够支撑每秒处理至少1.06×1091.06×109个像素点(足以应对4K 60fps)(Level 5.1其硬件片上 VBV 缓冲区和解复用芯片能够承受高达160 Mbps的瞬时输入吞吐量(High Tier。

2026-06-09 22:08:10 240

原创 HEVC(七):参数集

HEVC 的参数集(VPS、SPS、PPS)是支撑现代超高清、多视角及自适应流媒体网络传输的顶层制度保障。它通过层级递进的引用设计,将宏观的视频多流逻辑(VPS)、中观的序列物理属性(SPS)以及微观的场景块划分规则(PPS)进行了完美的空间分离。这种高内聚、低耦合的语法设计,不仅为视频数据披上了一层免受网络丢包重创的“防弹衣”,更为工程界在处理动态转码、秒开优化及硬件解码内存管理时,提供了无与伦比的架构弹性。

2026-06-08 21:46:05 265

原创 HEVC(六):CTC

一个新技术的加入,往往会导致“画质提升但码率也上升”,或者“码率下降但画质也变差”。为了综合评估,科学家绘制出码率-失真曲线(R-D Curve)(横轴为码率 Bitrate,纵轴为画质 PSNR 或 SSIM)。BD-Rate:代表在等同客观画质(PSNR)的前提下,新技术相比于基准线(Anchor)节省了百分之多少的码率。如果是 -5%,说明该技术能省 5% 的带宽。BD-PSNR:代表在**同等码率(Bitrate)*的条件下,新技术能*提升多少 dB 的画质。

2026-06-08 21:44:13 177

原创 HEVC(五):帧间运动补偿预测技术

HEVC 的帧间运动补偿预测技术是一套以“大块(CTU)动态裁剪”铺路、由“Merge/Skip 免传运动矢量”控流、并经“8抽头高阶滤波”精雕细琢的立体架构。它深刻洞察了高分辨率视频中像素位移的统计学规律,通过复杂的时域/空间候选预测建立了一套信息共享网络。正是这套精密复杂的运动补偿矩阵,让 H.265/HEVC 在面对高动态、超高清的现代多媒体场景时,依然能够把网络带宽牢牢压制在极低的红线之内。

2026-06-08 21:42:40 462

原创 HEVC(四):加权预测

HEVC 的加权预测是一项将物理世界的“光照线性变化”转化为数学领域的“乘加偏移模型”的成功典范。它在协议层通过 PPS 与 Slice Header 建立了弹性的参数传输矩阵,在算法层与 HEVC 的 Merge/AMVP 深度绑定,在工程硬件层通过定点数移位(o_shift)斩断了浮点数乘法。对于含有渐变、转场及复杂光影变化的现代化视频流,加权预测是保障视频画质不崩溃、码率不飙升的核心底层功臣。

2026-06-08 21:40:44 585

原创 HEVC(三):GOP

简单来说,GOP 就是一个独立可解码的视频帧序列。它规定了视频帧是如何组织、如何相互参考以及如何排列的。一个 GOP 总是以一个关键帧(I帧或其变体)开始,后面跟随若干个预测帧(P帧或B帧),直到下一个关键帧出现。压缩效率(Compression Efficiency):通过合理的 GOP 结构,编码器可以最大化利用视频在时间轴上的相关性(帧间预测),用极少的空间记录画面的运动变化。随机访问与快进快退(Random Access):视频不能只能从头播放。

2026-06-08 21:18:42 307

原创 HEVC(二):如何实现并行处理

在系统架构层面,提供Tile满足高吞吐、多处理器解耦的需求。在算法精细度层面,提供WPP满足对画质极其苛刻、但多线程同步高效的实时编码场景。在微架构与流水线层面,通过MER、解耦的DBF/SAO保证了专用集成电路(ASIC)和 FPGA 能够以极高的时钟频率进行流水线作业。在当前的开源与商用工程实践中(如著名的x265编码器): 为了压榨多核服务器(如 64 核或更高)的性能,通常会结合使用帧级并行(Frame-level Parallelism)WPP 开启以及。

2026-06-07 22:14:33 383

原创 HEVC(一):环路滤波

在高效视频编码(HEVC/H.265)标准中,环路滤波(In-Loop Filtering)是提升压缩效率和重建图像质量的关键技术之一。由于 HEVC 采用了基于块的混合编码框架(包含预测和变换),在低码率下不可避免地会引入。这两种滤波器都处于编码环路之内(In-Loop),意味着。因此,环路滤波不仅能改善视觉质量,还能显著降低预测残差,从而提高编码效率。

2026-06-07 09:41:00 219

原创 云中网络:GRE

GRE 是一个高效、结构简单、通用性极强的“管道”协议。它在云网络发展的前期(如早期 OpenStack 架构)承担了多租户 Overlay 网络的核心角色。通过在 IP 报文中套入 GRE 头,云服务商能够轻松越过物理网络的限制,编织出一张张解耦的虚拟私有网。为什么现在的公有云内部更倾向于使用 VXLAN / Geneve,而不是 GRE?根本原因在于流控与性能(ECMP 负载均衡)。在大规模数据中心里,成千上万的链路需要做流量负载均衡。

2026-05-17 21:52:37 263

原创 音视频学习(九十九):QP

QP 是视频编码中连接“物理比特”与“主观感官”的桥梁。它通过量化步长控制信息丢失量。它通过码控算法实现从宏观带宽到微观像素的调节。它的未来演进在于AI 与感知量化的结合,例如通过深度学习预测人眼注意图(Saliency Map),从而实现比传统 AQ 更精准的差异化 QP 分配。

2026-05-08 20:45:07 606

原创 卷积神经网络CNN(七):感受野

在 CNN 中,某一层输出特征图(Feature Map)上的一个像素点,在原始输入图像上所能映射到的区域大小,即为该像素点的感受野。感受野是连接空间几何与语义理解的桥梁。过小:会导致“盲人摸象”,无法识别大物体。过大:可能引入过多的背景噪声,弱化局部特征。未来趋势: 随着 Transformer 在计算机视觉领域的崛起,传统的卷积感受野正在演变为基于自注意力机制 (Self-Attention)的动态感受野。

2026-04-28 21:45:04 543

原创 pytorch(一):张量

stride 表示:在某一维上移动1步,需要跳过多少个内存元素contiguous = 内存按行优先连续排列多维数据表示(类似 NumPy)GPU 加速自动求导(Autograd)创建与初始化运算与广播形状变换设备管理自动求导。

2026-04-10 21:55:55 549

原创 音视频学习(九十八):Profile

ProfileB帧CABAC压缩率复杂度场景Baseline❌❌低低实时Main✅✅中中广播High✅✅高高高清Profile 是编码标准对“能力集合”的裁剪,用于在性能、复杂度和兼容性之间取得平衡。低延迟 → Baseline通用场景 → Main高质量/存储 → High / HEVC根据业务场景做权衡。

2026-03-22 22:33:45 598

原创 音视频学习(九十七):自适应码率(ABR)

通过动态调整码率,使系统在复杂网络环境中始终保持最佳用户体验。拥塞控制(GCC)FEC(前向纠错)PLC(丢包隐藏)Jitter Buffer(抗抖动)

2026-03-21 19:21:52 550

原创 音视频学习(九十六):PLC

在无法恢复数据的情况下,通过算法“掩盖丢失”,保证播放的连续性和用户体验。FEC(前向纠错)NACK(重传)Jitter Buffer(抗抖动)自适应码率(ABR)

2026-03-21 19:21:09 669

原创 音视频学习(九十五):FEC

通过增加冗余数据,在不依赖重传的情况下提升抗丢包能力,从而保障实时性和连续性。FEC(前向纠错)NACK(重传)PLC(掩盖)ABR(码率控制)形成一套完整的抗丢包体系。

2026-03-21 19:19:50 593

原创 音视频学习(九十四):NACK和RTX

NACK 与 RTX 并不是简单的“补包机制”,而是一套围绕实时性设计的动态系统。在有限时间窗口内,用最小代价恢复最有价值的数据。

2026-03-20 22:26:28 565

原创 音视频学习(九十三):CompoundRTCP

Compound RTCP 是 RTCP 协议中的核心机制,其本质是多个 RTCP 子报文的组合发送机制。身份标识一致性(CNAME)传输质量反馈(RR/SR)会话控制(BYE)高效网络利用在现代流媒体系统(如 WebRTC、SRS、GB28181)中,Compound RTCP 是实现自适应码率控制、音视频同步和网络质量评估的基础。

2026-03-20 22:06:59 416

原创 WebRTC(十六):NetEQ

NetEQ 是 WebRTC 音频系统中最核心的模块之一,它通过自适应抖动缓冲、丢包补偿和时间伸缩技术,解决了实时音频通信中的网络问题。NetEQ 的设计目标是在低延迟环境下提供连续、自然的音频播放。

2026-03-14 19:39:45 466

原创 音视频学习(九十二):ts封装

endifTS(Transport Stream)是一种为实时传输和广播环境设计的音视频封装格式,通过188字节固定包结构、PID机制、PSI表和PCR时间同步机制实现稳定的音视频传输。其核心思想是将原始音视频码流封装为 PES,再切分为 TS 包进行复用传输。

2026-03-14 19:37:41 751

原创 音视频学习(九十一):rtp扩展头

RTP 扩展头提供了一种灵活扩展 RTP 功能的机制通过 RTP 头的X 位标识扩展存在扩展头包含RFC5285 定义One-byte / Two-byte 扩展格式广泛应用于WebRTC、视频会议、实时流媒体主要用于带宽控制、统计信息、同步控制等功能。

2026-03-10 22:25:34 703

原创 音视频学习(九十):再谈srt协议

SRT 是一种面向实时视频传输的高性能协议。它基于 UDP 实现,但通过 ARQ 重传、拥塞控制、流量控制和延迟缓冲机制,使其具备可靠传输能力。低延迟传输高可靠性自适应网络能力安全加密NAT 穿透支持通过 Packet Pacing、TSBPD、拥塞控制等优化技术,SRT 能够在复杂网络环境下稳定传输高清视频流。

2026-03-10 21:14:38 589

原创 WebRTC(十五):NAT穿透机制深度解析

WebRTC NAT 穿透是通过三个核心技术实现的。收集 Candidate交换 CandidateICE 连通性检测选择最佳路径建立媒体连接HostRelay在大多数情况下 WebRTC 可以通过STUN 实现 P2P 直连。当 NAT 类型复杂或防火墙严格时,则通过TURN 中继完成通信。合理部署 STUN/TURN 服务器和优化 ICE 策略,是提升 WebRTC 连接成功率和系统性能的重要手段。

2026-03-08 21:37:20 711

原创 WebRTC(十四):Candidate

Candidate 是 WebRTC NAT 穿透和 P2P 连接建立的重要组成部分。通过 ICE 协议,WebRTC 可以收集多种网络地址,并通过连通性检测选择最佳通信路径。Host Candidate(本地地址)Server Reflexive Candidate(STUN 公网映射)Relay Candidate(TURN 中继地址)ICE 通过 Candidate Pair 进行连通性检测,并最终选择最优路径进行媒体传输。结合 Trickle ICE 技术,可以显著提高连接建立速度。

2026-03-08 21:11:11 678

原创 音视频学习(八十九):指数哥伦布编码

指数哥伦布编码是现代视频编码标准中极为重要的整数表示方式:广泛用于语法层支撑 CAVLC编码运动矢量与残差仍用于语法参数与 CABAC 结合使用作为整数映射基础它的核心优势是:用最简单的变长码实现高效小整数压缩虽然在 H.265 时代被 CABAC 主导,但 Exp-Golomb 依然是理解视频编码语法结构的基础。

2026-03-02 22:02:26 1036

原创 密码学(一):sm4+ofb

特性SM4-ECB (基本模式)SM4-CBC (链式模式)SM4-OFB (反馈模式)安全性低(易受模式分析)高高(IV 唯一时)填充需要需要不需要并行计算支持不支持解密外支持预计算错误影响仅本块蔓延至下一块无蔓延。

2026-02-08 21:17:42 1232

原创 Tensorflow数据增强(三):高级裁剪

TensorFlow 中的高级裁剪并不是单一技术,而是一整套围绕“语义有效性 + 随机性控制 + 标签一致性”展开的设计思想。更关注目标与上下文关系更适合复杂视觉任务更符合真实世界分布。

2026-02-08 19:27:34 636 1

原创 音视频学习(八十八):mp4

MP4 文件由一系列独立的单元组成,这些单元被称为。ftypmoovmdat这种设计让 MP4 具有极强的扩展性——如果播放器不认识某个 Box,直接根据 Header 里的 Size 跳过即可。

2026-02-02 22:02:58 931

原创 音视频学习(八十七):AVCC、HVCC和VVCC

Annex-B最初是在 H.264 (AVC) 标准的“附录 B”(Annex B)中定义的,后来也被 H.265 (HEVC) 和 H.266 (VVC) 沿用。它设计的初衷是为了解决丢失同步的问题。在直播流(如 TS 流)或实时网络传输中,接收端可能随时加入。由于没有 MP4 那样的全局文件头,接收端必须有一种方法在混乱的二进制流中定位到一个视频帧的开始位置。

2026-02-02 21:41:34 2361

原创 Tensorflow数据增强(二):基本变换操作

TensorFlow 在数据增强方面提供了完整且灵活的工具体系,从基础的几何变换到颜色、噪声等像素级操作,能够覆盖绝大多数视觉任务的需求。合理使用这些基本变换操作,可以有效缓解过拟合问题,提升模型的泛化能力和鲁棒性。

2026-01-30 21:24:43 669

原创 c++ 四叉树

四叉树是平衡“空间精度”与“计算效率”的经典工具。动态删除:当物体移动时,需要从旧节点删除并重新插入新节点。非均匀分布处理:如果所有点都在同一个位置,四叉树会深度退化。松散四叉树 (Loose Quadtree):为了处理边界上的物体,增加节点边界的重叠量。

2026-01-25 22:11:48 960

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除