自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

www_dong的博客

探寻——代码之上

  • 博客(889)
  • 收藏
  • 关注

原创 WebRTC(十六):NetEQ

NetEQ 是 WebRTC 音频系统中最核心的模块之一,它通过自适应抖动缓冲、丢包补偿和时间伸缩技术,解决了实时音频通信中的网络问题。NetEQ 的设计目标是在低延迟环境下提供连续、自然的音频播放。

2026-03-14 19:39:45 374

原创 音视频学习(九十二):ts封装

endifTS(Transport Stream)是一种为实时传输和广播环境设计的音视频封装格式,通过188字节固定包结构、PID机制、PSI表和PCR时间同步机制实现稳定的音视频传输。其核心思想是将原始音视频码流封装为 PES,再切分为 TS 包进行复用传输。

2026-03-14 19:37:41 646

原创 音视频学习(九十一):rtp扩展头

RTP 扩展头提供了一种灵活扩展 RTP 功能的机制通过 RTP 头的X 位标识扩展存在扩展头包含RFC5285 定义One-byte / Two-byte 扩展格式广泛应用于WebRTC、视频会议、实时流媒体主要用于带宽控制、统计信息、同步控制等功能。

2026-03-10 22:25:34 609

原创 音视频学习(九十):再谈srt协议

SRT 是一种面向实时视频传输的高性能协议。它基于 UDP 实现,但通过 ARQ 重传、拥塞控制、流量控制和延迟缓冲机制,使其具备可靠传输能力。低延迟传输高可靠性自适应网络能力安全加密NAT 穿透支持通过 Packet Pacing、TSBPD、拥塞控制等优化技术,SRT 能够在复杂网络环境下稳定传输高清视频流。

2026-03-10 21:14:38 469

原创 WebRTC(十五):NAT穿透机制深度解析

WebRTC NAT 穿透是通过三个核心技术实现的。收集 Candidate交换 CandidateICE 连通性检测选择最佳路径建立媒体连接HostRelay在大多数情况下 WebRTC 可以通过STUN 实现 P2P 直连。当 NAT 类型复杂或防火墙严格时,则通过TURN 中继完成通信。合理部署 STUN/TURN 服务器和优化 ICE 策略,是提升 WebRTC 连接成功率和系统性能的重要手段。

2026-03-08 21:37:20 572

原创 WebRTC(十四):Candidate

Candidate 是 WebRTC NAT 穿透和 P2P 连接建立的重要组成部分。通过 ICE 协议,WebRTC 可以收集多种网络地址,并通过连通性检测选择最佳通信路径。Host Candidate(本地地址)Server Reflexive Candidate(STUN 公网映射)Relay Candidate(TURN 中继地址)ICE 通过 Candidate Pair 进行连通性检测,并最终选择最优路径进行媒体传输。结合 Trickle ICE 技术,可以显著提高连接建立速度。

2026-03-08 21:11:11 488

原创 音视频学习(八十九):指数哥伦布编码

指数哥伦布编码是现代视频编码标准中极为重要的整数表示方式:广泛用于语法层支撑 CAVLC编码运动矢量与残差仍用于语法参数与 CABAC 结合使用作为整数映射基础它的核心优势是:用最简单的变长码实现高效小整数压缩虽然在 H.265 时代被 CABAC 主导,但 Exp-Golomb 依然是理解视频编码语法结构的基础。

2026-03-02 22:02:26 872

原创 密码学(一):sm4+ofb

特性SM4-ECB (基本模式)SM4-CBC (链式模式)SM4-OFB (反馈模式)安全性低(易受模式分析)高高(IV 唯一时)填充需要需要不需要并行计算支持不支持解密外支持预计算错误影响仅本块蔓延至下一块无蔓延。

2026-02-08 21:17:42 1132

原创 Tensorflow数据增强(三):高级裁剪

TensorFlow 中的高级裁剪并不是单一技术,而是一整套围绕“语义有效性 + 随机性控制 + 标签一致性”展开的设计思想。更关注目标与上下文关系更适合复杂视觉任务更符合真实世界分布。

2026-02-08 19:27:34 591 1

原创 音视频学习(八十八):mp4

MP4 文件由一系列独立的单元组成,这些单元被称为。ftypmoovmdat这种设计让 MP4 具有极强的扩展性——如果播放器不认识某个 Box,直接根据 Header 里的 Size 跳过即可。

2026-02-02 22:02:58 753

原创 音视频学习(八十七):AVCC、HVCC和VVCC

Annex-B最初是在 H.264 (AVC) 标准的“附录 B”(Annex B)中定义的,后来也被 H.265 (HEVC) 和 H.266 (VVC) 沿用。它设计的初衷是为了解决丢失同步的问题。在直播流(如 TS 流)或实时网络传输中,接收端可能随时加入。由于没有 MP4 那样的全局文件头,接收端必须有一种方法在混乱的二进制流中定位到一个视频帧的开始位置。

2026-02-02 21:41:34 1285

原创 Tensorflow数据增强(二):基本变换操作

TensorFlow 在数据增强方面提供了完整且灵活的工具体系,从基础的几何变换到颜色、噪声等像素级操作,能够覆盖绝大多数视觉任务的需求。合理使用这些基本变换操作,可以有效缓解过拟合问题,提升模型的泛化能力和鲁棒性。

2026-01-30 21:24:43 602

原创 c++ 四叉树

四叉树是平衡“空间精度”与“计算效率”的经典工具。动态删除:当物体移动时,需要从旧节点删除并重新插入新节点。非均匀分布处理:如果所有点都在同一个位置,四叉树会深度退化。松散四叉树 (Loose Quadtree):为了处理边界上的物体,增加节点边界的重叠量。

2026-01-25 22:11:48 881

原创 音视频学习(八十六):宏块

H.264 中,一个宏块的基本尺寸为 16×16 像素(亮度 Y 分量)。Y(亮度):16×16U(色度):8×8V(色度):8×8256 个亮度像素64 个 U 色度像素64 个 V 色度像素宏块是运动估计、预测、变换、量化和熵编码的基本处理单位。

2026-01-25 21:08:54 907

原创 音视频学习(八十五):FU-A

FU-A 是 H.264 网络传输的基石。它巧妙地在 RTP 负载层解决了大数据块传输的问题,兼顾了协议的鲁棒性与解析的简便性。核心组件关键作用定义协议类型(Type 28)FU Header标记分片的首尾位置及原始 NALU 类型Timestamp保持同帧同步,不可在分片间递增Marker Bit标志完整图像帧的结束。

2026-01-22 21:05:37 723

原创 Tensorflow数据增强(一):图片的导入与显示

阶段dtypeshape路径string[]字节流string[]解码uint8[H,W,3]转换float32[H,W,3]resizefloat32batchfloat32维度tf.imagetf.data抽象层级底层函数模型层数据层灵活性高中中高自动区分阶段否是否GPU 支持否是否工程友好性中高高图片的导入与显示是 TensorFlow 数据增强流程中最基础、也是最关键的环节之一。

2026-01-22 21:03:56 772

原创 目标检测算法与原理(三):PyTorch实现迁移学习

import osimport cv2# 读取图像boxes = []labels.append(int(cls) + 1) # 0 保留给 backgroundtarget = {

2026-01-21 21:43:51 771

原创 c++ SIMD总结

SIMD 是程序员从“逻辑实现”迈向“极致性能”的必经之路。随着AVX-512的普及和的兴起,SIMD 的宽度还在不断增加。然而,SIMD 并非万能钥匙。它的局限性在于代码维护成本高且平台相关。在实际工程中,建议优先使用编译器优化和OpenMP (,仅在性能瓶颈处(如热点函数)手工编写Intrinsics代码。

2026-01-20 20:29:39 708

原创 音视频学习(八十四):视频压缩:MPEG 1、MPEG 2和MPEG 4

MPEG-1、MPEG-2 和 MPEG-4 构成了数字视频压缩技术发展的重要阶段。MPEG-1 奠定了帧间预测和 GOP 结构的基础;MPEG-2 推动了数字电视和 DVD 的普及;MPEG-4 则开启了面向互联网和移动多媒体的视频编码时代。

2026-01-11 17:45:54 839

原创 音视频学习(八十三):视频压缩:MJPEG技术

MJPEG 是一种以 JPEG 为基础的帧内视频编码技术,通过对每一帧进行独立压缩,实现了结构简单、低延迟、高稳定性的特点。虽然其压缩效率远低于现代视频编码标准,但在工业视觉、实时视频采集、浏览器流媒体等领域仍具有实际价值。实时性优先方案简单可靠方案中间处理格式而非面向低带宽、大规模分发的主流视频编码方案。

2026-01-11 17:34:24 740

原创 音视频学习(八十二):mp4v

MP4V(MPEG-4 Part 2)是视频编码发展史上的重要一环,它在压缩原理、运动补偿、DCT 量化等方面奠定了现代视频编码的基础。尽管在效率和功能上已明显落后于 H.264 及之后的标准,但其结构清晰、实现简单、历史兼容性强,在工程维护、老系统改造和编码原理学习中仍具有价值。

2026-01-11 16:59:57 1147

原创 OpenCV(五十三):Haar人脸识别

Haar 人脸识别算法是计算机视觉发展史上的重要里程碑,它通过Haar 特征、积分图、Adaboost 和级联分类器的巧妙结合,实现了高效、实时的人脸检测。虽然在精度和鲁棒性方面已不及现代深度学习方法,但其轻量、高效、易用的特性使其在特定应用中仍具生命力。

2026-01-08 23:03:33 1238

原创 OpenCV(五十二):图像修复

实时性要求高硬件资源受限修复区域较小工程稳定性优先Telea 算法适合大多数通用场景。Navier-Stokes 算法更适合结构修复。前景检测图像分割视频处理等模块结合,构成完整的视觉处理链路。

2026-01-04 21:35:16 597

原创 OpenCV(五十一):视频前后景分离

背景(Background)前景(Foreground)本质是一个逐像素分类问题。实现简单性能稳定实时性强参数可控其中MOG2 和 KNN 是最推荐的通用方案。通过合理的参数设置与后处理策略,可以在大多数实际场景中取得较好的分离效果。候选区域生成前端轻量检测模块深度学习的前置过滤从而构建高效、可扩展的视频分析系统。

2026-01-04 21:34:16 1069

原创 linux基础66——logrorate

使用独立配置文件明确logrotate 是 Linux 系统中不可或缺的日志管理工具,它通过灵活的配置机制,实现了日志文件的自动轮转、压缩与清理,有效避免了日志无限增长带来的系统风险。保证系统稳定运行降低磁盘空间压力提升运维自动化水平。

2026-01-03 21:22:38 933

原创 OpenCV(五十):meanshift图像分割

MeanShift 是一种经典而优雅的图像分割算法无需指定类别数能在颜色与空间联合特征中进行自适应聚类分割结果自然、边缘友好在 OpenCV 中,提供了工程化实现,使其在实际项目中仍具有一定实用价值。但由于其计算复杂度较高,更适合离线图像处理、预处理阶段或对分割质量要求高的应用场景。

2026-01-03 21:13:34 1378

原创 OpenCV(四十九):GrabCut

GrabCut 使用一个能量函数 E 来量化分割的好坏。这个能量函数由两部分组成:数据项(Data Term)和平滑项(Smoothness Term)。数据项(Unary Term):表示单个像素属于前景或背景的概率。基于颜色分布模型,如果一个像素的颜色更接近前景模型,则其属于前景的能量较低。平滑项(Binary Term):表示相邻像素的标签一致性。如果两个相邻像素颜色相似但标签不同,则会增加能量惩罚,以鼓励平滑的边界。数学上,能量函数定义为:α:每个像素的标签(0 为背景,1 为前景)。

2025-12-28 21:26:14 758

原创 音视频学习(八十一):JPEG编解码

感知模型分块 DCT量化 + 熵编码实现了在视觉质量与压缩率之间的平衡。

2025-12-28 19:44:40 1300

原创 音视频学习(八十):离散余弦变换(DCT)

离散余弦变换是视频有损压缩的基石技术优秀的能量集中特性与人眼视觉模型高度契合与预测编码完美结合计算复杂度与压缩效率平衡良好虽然现代编码引入了更复杂的工具(自适应预测、可变块、环路滤波),但DCT 及其整数变种依然是视频编码不可替代的核心模块。没有 DCT,就没有高效的视频有损压缩。

2025-12-28 19:08:11 1178

原创 音视频学习(七十九):LZW编码

数据压缩是减少数据存储空间和传输带宽的关键技术,按照是否丢失信息分为和两种。有损压缩(如JPEG图像、MP3音频、H.264/H.265视频编码)允许一定信息损失,以换取更高的压缩比,常用于多媒体领域,因为人类感官对轻微损失不敏感。无损压缩则确保解压后数据与原始完全相同,适用于文本、程序、可执行文件、科学数据和对精度要求高的场景。LZW(Lempel-Ziv-Welch)算法是一种经典的字典式无损压缩算法,由Abraham Lempel、Jacob Ziv和Terry Welch于1984年提出。

2025-12-26 20:52:05 1111

原创 音视频学习(七十八):行程编码

行程编码(RLE)作为视频无损压缩的基石技术,以其简单高效在残差处理中发挥关键作用。虽现代codec多用高级熵编码,RLE的变体(如修改版、run-mode)仍活跃于Lagarith、FFV1等专业工具中,特别适合高重复视频。未来,随着AI预测提升残差零run概率,RLE将继续贡献于实时编辑、医疗存档和屏幕捕获等领域。

2025-12-26 20:51:12 1012

原创 OpenCV(四十八):图像查找

方法原理基础对尺度不变对旋转不变对光照不变计算速度适用场景模板匹配滑动相关计算××△快精确位置查找、固定模板特征匹配局部不变特征+描述符✓✓✓中物体识别、图像配准、AR直方图比较全局颜色分布统计✓✓△极快颜色相似检索、场景分类感知哈希低频指纹+汉明距离△△✓极快图像去重、近似搜索、反爬虫。

2025-12-26 20:49:19 1258 1

原创 OpenCV(四十七):FLANN特征匹配

FLANN是一种针对大规模数据集的高维近似最近邻搜索算法库。在视频分析中,它通过构建多路随机K-D树(浮点特征)或LSH哈希索引(二进制特征),将特征匹配效率较暴力匹配提升数倍。结合过滤噪点,可在保障实时性的同时实现高精度画面对齐与目标追踪,是支撑大规模视频质量监测的核心算法。

2025-12-26 20:23:13 1037

原创 OpenCV(四十六):OBR特征检测

ORB 是一种工程友好、性能优秀、完全开源的特征检测与描述算法。它通过 FAST + BRIEF 的组合,并引入方向估计与旋转不变性,在速度、精度和实用性之间取得了极佳平衡。

2025-12-24 21:34:30 700

原创 OpenCV(四十五):SURF特征检测

SURF 是一种在速度与鲁棒性之间取得良好平衡的经典特征算法,通过 Hessian 矩阵、积分图与 Haar 小波,实现了高效的特征检测与描述。虽然在现代项目中逐渐被 ORB、AKAZE 等自由算法取代,但SURF 仍然是理解特征点算法的重要里程碑。

2025-12-24 21:31:49 757

原创 OpenCV(四十四):SIFT计算描述子

SIFT 描述子通过尺度归一化、方向对齐、空间分块和梯度方向统计,构建了一个高度稳定且区分性极强的 128 维特征向量。OpenCV 对 SIFT 的实现高度工程化,封装了复杂的数学细节,使其在计算机视觉领域长期占据重要地位。尽管在实时性和计算成本上存在不足,但在对匹配精度和鲁棒性要求极高的场景中,SIFT 描述子仍然是一个标杆级算法。

2025-12-22 22:33:28 906

原创 音视频学习(七十七):无损压缩:Huffman编码

Huffman 编码通过为高频符号分配短码、低频符号分配长码,实现无损熵编码。在视频无损压缩中,常用于对预测残差和变换系数进行编码,能够在不丢失任何信息的前提下显著降低码率。

2025-12-21 20:29:20 1076

原创 OpenCV(四十三):分水岭法

基于拓扑地形和数学形态学的区域分割方法通过引入标记控制机制,分水岭从理论方法转变为工程可用算法。在实际项目中,它常与阈值分割、距离变换、形态学处理联合使用,是解决粘连目标分割问题的经典方案。

2025-12-21 19:43:25 730

原创 OpenCV(四十二):图像分割原理

OpenCV 图像分割方法涵盖了从传统图像处理到经典优化理论阈值法:简单高效,适合规则场景边缘法:强调轮廓信息,需后处理区域法:注重区域一致性聚类法:适合颜色分割图论法:效果好但计算复杂。

2025-12-21 19:05:55 1192

原创 音视频学习(七十六):熵编码

唯一无损压缩模块压缩效率的最后保障决定码流体积的重要因素预测与量化决定“剩多少”,熵编码决定“怎么装”

2025-12-20 20:56:24 979

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除