- 博客(1098)
- 资源 (2)
- 收藏
- 关注
原创 x265 slicetype.cpp 源码深度剖析:Lookahead模块核心源码
是 x265 编码器实现Lookahead(前瞻分析)的核心文件,位于目录下。在正式编码之前,用低分辨率图像预演一遍,决定每帧的类型(I/P/B/B-ref)和 QP 偏移量,为码率控制和实际编码提供最优决策。从 x264 时代开始,Lookahead 就是编码器画质和压缩效率的「灵魂」——disabling lookahead 会让编码质量明显下降。x265 在此基础上引入了 CU 级传播代价模型(cuTree)、层次运动估计(HME)、基于直方图的场景切换检测等新技术。Lookahead。
2026-06-23 17:50:32
122
原创 DeepSeek 技术全解析:从原理到部署的完整指南
用 1/90 的训练成本,做到了 90% 的顶尖性能。MLA:把 KV Cache 缩小 14 倍 → 内存省了MoE:671B 参数只算 37B → 计算省了DSA:O(L²) → O(L·k) → 长文本省了MTP:投机采样 → 速度翻倍DualPipe:设备利用率 58% → 94% → 训练时间缩短 3xFP8:计算利用率 62% → 81% → 硬件省了。
2026-06-23 16:29:45
247
原创 音视频开发过程中一些踩坑复盘
所有视频编解码的输入输出都是 YUV,不是 RGB。这本身没问题,问题在于YUV 不是一个格式,而是 18+ 种格式的统称。开发者最容易犯的错误:把YUV420P当成唯一格式,结果在 Android 上拿到NV12,在 iOS 上拿到NV21,在 Windows DXVA 上拿到,然后直接丢给编码器——画面直接绿了/花屏了/偏色了。音视频同步是播放器的灵魂,而同步的灵魂是时间戳。但90% 的开发者对 PTS/DTS 的理解是错的。
2026-06-22 21:23:49
38
原创 【GitHub】2026 年 6 月 GitHub 热门项目全景盘点:AI Agent 从”能写代码”进化到”有品味、有记忆、有安全意识”
AI Agent 正在从"能写代码"进化到"有品味、有记忆、有安全意识"——Skills 解决能力问题,headroom 解决成本问题,MXC/SkillSpector 解决安全问题。Token 效率是刚需——headroom 单周 +14,272 星不是偶然,大模型 Token 成本是当前开发者最大的痛点之一。Agent 安全从可选变成必选——6 月的事故和论文直接把这个问题推到了前台。多 Agent 分工取代单 Agent 一把梭——从视频生成到代码审查,所有场景都在转向多 Agent 协作。
2026-06-22 18:54:40
727
原创 libaom encoder.c 深度源码分析
如果你把 libaom 编码器想象成一支军队,那么encoder.c就是总司令的指挥帐篷。它不亲自上一线"拼刺刀"——不会直接做运动估计、变换量化、熵编码;什么时候编码、用什么类型、给多少 bit、要不要重新编码、用不用超分辨率、参考谁不参考谁。encoder.c 的工作就是将aomenc管道中的"输入帧"(YUV 原始数据)编排为一连串的编码操作,最终吐出 OBU(Open Bitstream Units)比特流。它是整个编码器对外暴露的 API 接口层与内部算法层之间的"粘合剂"。这个文件包含。
2026-06-22 11:42:45
396
原创 【GitHub】Workerman:PHP 世界里那颗被严重低估的高性能内核
PHP 背负的历史包袱不小。很多人脑海里 PHP 的运行模型是固定的——Nginx/Apache 接请求,PHP-FPM 拉起进程,执行完就销毁,干净利落,但代价是每次请求都要重头来一遍:解析代码、初始化运行时、连接数据库……然后全部扔掉。这套"无状态短连接"的 CGI 哲学在 Web 1.0 时代无懈可击,但在即时通讯、物联网、游戏服务器横行的今天,就变成了真正的性能天花板。这就是 Workerman 存在的意义。Workerman是由国内开发者 walkor 主导开发、在 GitHub 累计拥有超。
2026-06-22 10:19:10
387
原创 【GitHub】Code Hike 深度解析:用 Markdown + React 构建下一代技术内容网站
Code Hike在 Markdown 的写作体验和 React 的表现力之间架一座桥。纯 Markdown:写得爽,但排版受限,代码块千篇一律,交互为零。纯 React:表现力无限,但写内容要写 JSX,内容与样式耦合,维护噩梦。Code Hike 的思路是——小孩子才做选择,成年人全都要。它通过在 Markdown 中注入轻量级的"装饰语法",将内容结构化,然后在 React 组件层自由渲染。一句话定位:Code Hike = MDX 插件 + 代码高亮引擎 + 注解系统 + 布局工具集。
2026-06-21 21:22:26
400
原创 【论文解读】VideoGigaGAN:让视频超分辨率终于「看起来真实」
细节越丰富,闪烁越严重;越稳定,越模糊。这个矛盾在 VideoGigaGAN 中被明确命名为“一致性-质量困境(consistency-quality dilemma)”。过去的 VSR 方法(BasicVSR++、TTVSR 等)基本都选择了「稳定优先」路线,用回归损失函数去拟合像素均值,结果输出视频时间一致性不错,但图像糊成一锅粥,纹理全部消失。
2026-06-21 20:12:03
20
原创 论文深读:Enhancing Video Super-Resolution via Implicit Resampling-based Alignment
视频超分辨率(VSR)的核心卖点是利用时间维度的信息,而时间信息要能用的前提,是先把相邻帧对齐(Alignment)。现有 VSR 方法在对齐上花的功夫不少:光流(Optical Flow)、可变形卷积(Deformable Conv)、可变形注意力(Deformable Attention)……但有个关键步骤一直被所有人默认忽略了——重采样(Resampling)。运动估计(Motion Estimation):算出像素位移场M运动补偿(Motion Compensation):根据M。
2026-06-20 16:30:51
282
原创 LLM Course 深度解析:GitHub 最全大语言模型学习路线图
到处都是教程,却不知道该看哪个。llm-course就是为了解决这个问题诞生的。它是 Maxime Labonne(Hugging Face 研究员、《LLM Engineer’s Handbook》联合作者)整理的一套系统性 LLM 学习路线,覆盖从数学基础到生产部署的完整知识链路,并附带23 个可直接运行的 Google Colab Notebooks。项目截至 2026 年 2 月已累计96 次提交,内容持续更新,Star 数量位居 LLM 教程类项目前列。更重要的是——永久免费。
2026-06-20 16:09:26
368
原创 VRT:视频复原Transformer——原理深度解析与技术实现
视频复原(Video Restoration)是低质视频帧序列 → 高质视频帧序列的映射问题,涵盖视频超分辨率(Video SR)视频去模糊(Video Deblurring)视频去噪(Video Denoising)三大任务。视频复原必须利用相邻帧之间的时序信息,但相邻帧通常存在运动错位(misalignment)——物体在帧间发生了位移。如何高效地对齐并利用这些错位帧,是视频复原的核心难题。首个真正意义上的并行视频复原Transformer框架,支持长距离时序依赖建模。
2026-06-19 20:55:25
135
原创 Go 语言知识点完全指南
/ 接口定义(隐式实现,无需 implements 关键字)func (d Dog) Sound() string { return "汪汪" }func (d Dog) Move() string { return "跑" }func (b Bird) Sound() string { return "叽叽" }func (b Bird) Move() string { return "飞" }// 多态。
2026-06-19 15:55:01
398
原创 【论文解读】H.265/HEVC视频隐写分析:基于CU块结构梯度与IPM映射的深度剖析
随着多媒体技术的飞速发展,海量信息在网络中传输。视频隐写术(Video Steganography)是一种通过在视频中隐藏秘密信息来实现隐蔽传输的技术,广泛应用于国防、军事等领域。然而,该技术的滥用可能对公共安全造成严重威胁。因此,视频隐写分析(Video Steganalysis)应运而生,它能够有效检测通过信道传输的视频是否含有秘密信息,从而防止恶意隐藏信息的传递。更高的压缩效率支持更高分辨率更好的网络适应性因此,基于H.265/HEVC的视频隐写分析已成为主要研究方向。
2026-06-19 08:49:43
108
原创 【GitHub】深度剖析 iptv-org/iptv:全球最大开源 IPTV 频道库的技术架构
是全球最大的开源 IPTV 直播源聚合项目。它不存储任何视频文件,而是通过社区贡献的方式,收集全球各地电视台的公开直播流 URL,整理成标准的 M3U 播放列表,供任何人免费使用。覆盖 150+ 个国家/地区支持 150+ 种语言按类别分组 31 种(新闻/体育/电影/音乐等)是一个教科书级别的开源项目用构建完全自动化的维护流程用Issue 模板降低社区贡献门槛用实现零成本的 API 和静态资源托管用CSV + Git替代传统数据库,实现"人人可编辑"的数据管理用。
2026-06-18 17:22:47
892
原创 x265 编码器核心调度层 encoder.cpp 文件深度拆解
x265 是由 Multicoreware, Inc 主导开发的开源 HEVC/H.265 视频编码器,以 GPL 许可发布。作为 H.265 标准的工程实现,x265 在压缩效率上相比 H.264/AVC 的 x264 编码器提升了约 40%~50%,同时保持与 x264 相似的编码速度/质量权衡哲学。|——cmake/ ← 编译相关├── encoder/ ← 编码器核心│ ├── encoder.cpp ← ★ 本文分析对象(顶层调度)
2026-06-18 16:59:18
434
原创 Wiener 滤波原理深度解析
Wiener 滤波 = 在每个频率上,按照"这里的信号有多可信"来决定该信任多少观测值、该抛弃多少噪声。它的最优性是在均方误差意义下线性估计中最优,代价是需要信号和噪声的功率谱先验。它是卡尔曼滤波、LMS 自适应滤波、MMSE 均衡器乃至现代深度去噪网络的理论起点。
2026-06-17 17:30:23
544
原创 VVC/H.266 编码端自适应环路滤波器深度解析 —— EncAdaptiveLoopFilter.cpp 全面拆解
视频编码中,DCT 量化引入了块效应(blocking artifact)和振铃(ringing),重建帧质量不如原始帧。环路滤波器在解码端重建帧上进行后处理,使其更接近原始图像,从而提升编码效率(同等 PSNR 用更少码率)。DCT 量化 → 熵编码 → 重建帧 → DBF (去块) → SAO (样本偏移) → ALF → 参考帧。
2026-06-17 17:13:23
723
原创 深入 VTM 编码核心:EncGOP.cpp 全景解析
GOP(Group of Pictures,图像组)是视频编码中一组连续帧的集合。在一个 GOP 内部,帧与帧之间存在预测依赖关系,但 GOP 之间(在 Closed GOP 模式下)保持码流独立性——这正是实现随机访问(Random Access)的基础。GOP 16 (Random Access 配置)EncGOP.cpp是 VTM 编码器的核心编排模块。它不直接执行编码算法(那是EncSlice的职责),但它负责串联所有编码步骤管理参考帧状态协调码率控制以及打包输出最终码流。理念。
2026-06-16 16:13:49
506
原创 【GitHub】CL4R1T4S:AI 系统提示词的透明革命
CL4R1T4S 不仅仅是一个"泄露合集"——它是 AI 透明性运动的一面旗帜,是黑客文化与哲学追问的交汇点。在一个 AI 越来越深入人类决策的时代,我们是否有权知道 AI 被指示了什么?系统提示词是 AI 行为的"基因"——理解它,才能真正理解 AI;提示词的透明性是 AI 可信度的前提——你无法信任一个你不知道规则的游戏;安全不应依赖隐藏——Kerckhoffs 原则(密码系统的安全性应仅依赖于密钥,而非算法的保密)同样适用于 AI;版本追踪揭示了 AI 行为的"暗面"
2026-06-16 13:10:39
311
原创 FFmpeg VVC (H.266) 解码器源码深度剖析
VVC(Versatile Video Coding, ITU-T H.266)于 2020 年 7 月定稿,是 HEVC(H.265)的后继者。同等主观质量下,VVC 比 HEVC 节省约 50% 码率,但代价是:FFmpeg 在 2021 年由 Nuo Mi 牵头将 VVC 解码器合入 master,并在 2022 年由 Xu Mu 重构并行框架,到 2023–2024 年实现了主流码流的实时解码。整个解码器仅由约 30 个 C 文件、13000+ 行 C 代码组成(C 文件共 31 个,含 4 个模板
2026-06-15 22:28:52
261
原创 感知编码的核心:视频编解码中的 JND 技术深度解析
维度要点理论基础HVS 的亮度/纹理/时域掩蔽 + CSF 频率特性三大流派像素域(直观)、DCT 域(编码器友好)、混合域(精细)编码器落点QP 偏移 > 感知 RDO > RDOQ > 去块滤波x265 实践--aq-mode--psy-rd--psy-rdoq三位一体关键指标8%-12% BD-Rate 节省,VMAF/MOS 增益,PSNR 可能下降工程陷阱块效应、场景切换、HDR 适配、语义盲区。
2026-06-15 16:59:17
338
原创 AV1 解码器核心:decodeframe.c文件深度剖析
特性实现方式解析/解码分离+ 函数指针策略,支持 Row-MT 流水线递归块划分的宏驱动递归,支持10种划分模式多级并行Tile-MT (粗粒度) + Row-MT (细粒度) 两级并行统一的重建接口统一处理帧内/帧间块完整的后处理链LoopFilter → CDEF → SuperRes → Restoration 顺序执行。
2026-06-14 22:09:41
315
原创 【GitHub】 Headroom 深度解析:AI Agent 上下文压缩层的完整技术拆解
CCR 可逆压缩:从根本上解决"激进压缩 vs 信息丢失"的矛盾,这是 Headroom 区别于所有竞品的核心技术壁垒。6 种自适应算法:不是一刀切,而是根据内容类型(JSON/代码/文本/日志/搜索/图片)自动选择最优压缩策略。全链路集成:透明代理(零代码)、Python/TypeScript SDK、LangChain/Agno/LiteLLM 框架集成、MCP Server,几乎没有接入障碍。失败学习机制:自动从失败会话中挖掘模式,生成改进规则——这让 Agent 运维从"人工经验"走向"自动沉淀"
2026-06-14 19:59:23
583
原创 【第 05 篇】Python的字典与集合
set是可变的——你可以随时添加或删除元素。但可变对象不能被哈希,因此不能作为字典的键,也不能放到另一个集合里。frozenset就是集合的不可变版本,一旦创建就不能修改。# set 不能作为字典的键# frozenset 可以!# frozenset 也可以放进 set# frozenset 不支持添加/删除# 但支持所有只读运算主题核心要点一句话记忆字典基础5种创建方式、安全访问用 get、in 检测键字典是"带标签的抽屉"字典方法。
2026-06-13 21:26:53
461
原创 FFmpeg HEVC (H.265) 解码器源码深度分析
HEVC(High Efficiency Video Coding,H.265)是 ITU-T VCEG 和 ISO/IEC MPEG 联合制定的新一代视频编码标准,于 2013 年正式发布。相比 H.264/AVC,HEVC 在相同主观质量下可节省约 50% 的码率。FFmpeg 作为最流行的开源多媒体框架,其。
2026-06-13 20:38:09
307
原创 C++核心技术深度剖析:从底层原理到工程实践
/ make_shared无法指定自定义删除器// make_shared无法指定自定义删除器 auto sp1 = std :: shared_ptr < FILE >(fopen("test.txt" , "r") , fclose);// OK // 但make_shared有性能优势:一次分配同时分配对象和控制块 auto sp2 = std :: make_shared < int >(42);
2026-06-12 21:54:16
445
原创 【GitHub】last30days-skill 深度技术解析
从 SaaS 到 Skill:能力不再需要封装为独立产品,一个.skill文件 + 标准规范就能接入 50+ 平台。分发成本趋近于零,网络效应极大化。从搜索到"计算事实":传统搜索引擎聚合编辑内容,但 Reddit 评论区的真实反馈、Polymarket 的赔率、X 上社区投票形成的共识——这些"人的信号"才是更有价值的信息来源。last30days 做的不是搜索,是计算"人用 upvote / like / 真金白银投出来的事实"。从黑盒到可审计。
2026-06-12 13:14:23
404
原创 深入剖析 x265编码器 SAO 滤波器原理
块效应(Blocking Artifact):由分块独立量化产生的块边界不连续振铃效应(Ringing Artifact):高频系数丢失后导致的边缘振荡滤波器功能描述去块滤波器 (DBF)消除块边界处的块效应,基于边界强度自适应平滑样本自适应偏移 (SAO)在 DBF 之后执行,对每个 CTU 的像素补偿系统性偏差,减少振铃Sample Adaptive Offset(样本自适应偏移,SAO)是 HEVC 标准 §8.7.3 引入的环路滤波工具。其核心思想是:对重建图像的每个像素,依据该像素的。
2026-06-11 15:37:35
42
原创 深入解析 x265 码率控制引擎
优点说明1完整的码率控制体系从 CQP 到 2-Pass ABR,覆盖所有常见场景2行级 VBV 控制逐行调整 QP 是 x265 的独有优势,极大提高了 VBV 约束下的质量3ABR 重置机制有效防止场景切换时的码率雪崩4前向预测避免了纯反应式 VBV 的延迟问题5场景切换前/后向遮罩提升了场景切换的视觉平滑度6自适应预测器在线学习的使比特预测随编码逐渐精准7CU-Tree 前向参考分析被频繁参考的区域获得更高质量,提升整体编码效率8I 帧码率摊销避免 I 帧码率尖峰对后续帧质量的冲击。
2026-06-10 11:52:56
237
原创 【GitHub】深度解析 Open Notebook:开源 AI 笔记研究平台的完整指南
是一款开源、AI 驱动的笔记与研究平台,由开发者 lfnovo 创建并维护,定位为 Google NotebookLM(谷歌的 AI 笔记工具)的完全开源替代品。它将强大的 AI 能力与严格的隐私控制相结合,专为研究人员、学生和知识工作者设计。用户应当完全拥有自己的数据和 AI 工作流。不同于 Google NotebookLM 将数据锁定在云端生态中,Open Notebook 让你可以在本地或私有服务器上运行所有功能,自主决定使用哪个 AI 模型、如何处理内容、以及谁能访问你的笔记。
2026-06-10 09:52:42
704
原创 x265 加权预测(Weighted Prediction)深度剖析
x265 的实现了一套完整、高效、实用统计学驱动的初始估计:利用预计算的均值和方差,快速给出接近最优的候选参数运动补偿辅助分析:在比较亮度差异前先做 MC 补偿,精准隔离"真实亮度变化"与"运动引起的差异"率失真联合优化(RDO):将 slice header 比特开销纳入代价函数,避免"得小失大"多级早期终止:在 plane / scale / offset 三个层级设置退出条件,大幅减少无效计算SIMD 全链路优化:从 weight 应用到 SATD 计算,所有热路径都有汇编/SIMD 加速。
2026-06-09 21:58:57
194
原创 【GitHub】VoxCPM2 实战全解析:原理、部署与效果对比
写到这里,我想回到最开始的问题:VoxCPM2 的价值到底是什么?我觉得不只是"效果好"或"开源"这么简单。它证明了"无分词器"这条路是走得通的,而且可以做得很好。在过去两年里,TTS 领域的主流思路一直是"用 LLM 生成语音 token,再用声码器还原"——这是一条简单直接的路,社区积累也深厚。VoxCPM2 选择了一条更难的路(直接在连续潜变量空间里生成,还要解决稳定性问题),并用扎实的工程和实验证明了这条路的可行性。对于做 TTS 研究的同学,这个方向值得跟进。
2026-06-09 20:01:42
789
原创 【GitHub】Hermes Agent 深度技术分析
Hermes Agent 是由(获 5000 万美元融资的 AI 实验室,Hermes 系列模型的缔造者)于 2026 年 2 月开源的自我改进型 AI 代理框架。“The agent that grows with you” —— 与你共同成长的智能体截至 2026 年 6 月,该项目已在 GitHub 上获得和,累计提交超过 11,000 次,代码规模达到惊人的238,000 行 Python。这在 AI Agent 开源项目中,是极其罕见的工程深度与活跃度。场景适用度说明个人长期 AI 助手。
2026-06-08 20:50:57
603
原创 x265 编码器核心决策引擎:analysis.cpp 深度源码解析
分层决策框架:RD-Level 0-6 提供了从"快速近似"到"精确全局最优"的平滑过渡,一个代码基覆盖所有 preset信息向上传递SplitData结构让子 CU 的分析结果(参考帧掩码、MV 代价)被父 CU 利用,形成自底向上的信息流多层级提前终止:时空域参考跳过:邻居代价比较跳过:内容复杂度跳过:Skip 模式早期终止:Split 累计代价检查WPP 友好的并行化PMODE将同一深度不同模式的评估并行化,充分利用多核在线学习在编码过程中动态学习内容特性,自适应调整。
2026-06-08 15:47:44
632
原创 【GitHub】AutoGPT 深度技术解析:开源自主 AI Agent 平台架构全解
降低了 Agent 开发门槛:Platform 的可视化 Builder 让非技术用户也能构建 AI Agent推动了 Agent 标准化:Agent Protocol 的实现促进了不同 Agent 框架之间的互操作建立了 Agent 评测标准:agbenchmark 为 Agent 能力评估提供了客观、可重复的方法。
2026-06-08 14:21:37
630
原创 CoDeF 深度技术解析:用内容变形场实现时间一致性视频处理
规范内容场CCC是整个视频的"静态蓝图"。它把视频中所有帧共享的静态视觉内容(如物体的纹理、形状、颜色)聚合成一张规范图像这张图像不是视频中的某一帧,而是通过优化"学习"出来的、能够代表整个视频内容的最佳二维表示。关键设计:在优化过程中,通过对规范场施加正则化约束,强制它继承视频中的语义信息(如物体轮廓、区域边界等),从而使得规范图像不仅包含视觉信息,还具备语义可解释性。时间变形场DDD是视频的"运动说明书"。它记录了从规范空间(Canonical Space)到每一个视频帧的坐标映射关系。
2026-06-07 20:53:09
57
原创 OpenH264编码器mv_pred.cpp 深度源码分析
│ │ ││ │ │标识标准命名OpenH264 变量位置ALeftsMvA当前块的左侧邻块BTopsMvB当前块的正上方邻块CTop-RightsMvC(primary)当前块的右上角邻块DTop-LeftsMvC(fallback)C 不可用时的替代│ 运动估计 (ME) ││ 模块调用入口 │││ PredInterXXMv() │ ← 根据分区类型选择│ │ PredMv() │ │ ← 通用中值预测引擎│ 计算 MVP│ 搜索得到 MV_actual │。
2026-06-07 18:12:44
172
视频编码基于VVC与HEVC的视觉质量评估:高清与超高清视频压缩性能对比分析
2026-05-25
视频编码基于VVC标准的核心压缩技术与多功能特性:实现高效视频压缩与多场景应用支持
2026-05-24
【计算机视觉与自然语言处理】基于流匹配的双向视觉-语言生成模型升级方法:FullFlow在保持预训练图像先验下的高效多模态扩展(提供源码)
2026-05-22
【计算机视觉】基于统一自回归框架的AI生成图像检测与修复协同模型:GenShield系统设计与实现提供源码
2026-05-19
【计算机视觉】基于域感知学习的光真实感3D生成框架:扩散模型在多视角合成与纹理映射中的应用
2026-05-17
视频压缩基于隐式辐射场的无分辨率神经压缩:高保真人像视频会议系统设计
2026-05-13
视频编码基于多粒度时序轨迹分解的生成式人体视频压缩:高保真低码率通信系统设计
2026-05-13
【计算机视觉】基于时空可变形卷积的视频质量增强方法:压缩视频去伪影高效融合框架设计
2026-05-13
视频编码基于分区映射与神经网络的VVC帧间块划分快速算法:融合MTT掩码与双阈值决策的高效编码优化
2026-05-13
视频压缩基于稀疏编码与联合重建网络的光场视频低码率压缩方法研究
2026-05-12
图像压缩基于离散高斯混合似然与注意力模块的深度学习图像压缩方法:高性能率失真优化系统设计提供源码
2026-05-11
人工智能基于大语言模型的人类活动模拟:面向具身AI的可扩展动态场景数据集构建
2026-05-10
【计算机视觉】基于动态提示生成与贝叶斯排序的文本到图像模型评估框架:面向抗污染与持续演进的综合性能评测系统设计
2026-05-09
【计算机视觉】基于深度展开网络的可解释鲁棒主成分分析:稀疏目标分割与图像恢复一体化模型设计
2026-05-08
机器人学视觉-语言-动作模型数据基础设施综述:面向多模态机器人系统的数据集构建、评测基准与可扩展数据引擎研究提供源码
2026-05-07
人工智能基于混合Mamba-Transformer架构的高效开源大模型:NVIDIA Nemotron 3系列在推理效率与长上下文任务中的应用研究
2026-05-06
人工智能基于原子能力的数据合成与渐进式训练:32B参数规模下的高效深度研究智能体系统设计提供源码
2026-05-06
【多模态检索】基于Qwen3-VL的统一嵌入与重排序框架:支持图文视频跨模态搜索的高效向量化系统设计提供源码
2026-05-05
人工智能基于大语言模型生成飞行场景的自主无人机系统开放基准:UAVBench数据集与多模态推理评估框架设计
2026-04-30
Neural Enhancement of Analytical Appearance Models
2026-04-29
【计算机视觉】基于强化学习的文本到视频生成框架:通过3D约束增强世界模拟的几何一致性研究【提供完整项目源码】
2026-04-28
人工智能基于自回归扩散模型的联合音视频生成框架:Talker-T2AV在说话人合成中的跨模态一致性优化提供源码
2026-04-28
基于HEVC的CU级别视频隐写技术
2026-06-18
【计算机视觉】基于Transformer的视频恢复模型:多尺度时空注意力与并行修复架构设计(提供源码)
2026-06-19
【机器人视觉】基于HEVC与JPEG混合传输的带宽受限遥测系统:无人机视觉中ROI图像增强的目标识别性能优化
2026-06-19
视频生成基于谱域前向预测校正的运动一致性文本生成视频方法:SpecLoR技术实现高效轨迹纠偏与物理合理性增强提供源码
2026-06-13
【机器人控制】基于语义视觉-动作分词器的世界模型:RepWAM框架在真实与仿真操作任务中的性能评估提供源码
2026-06-13
音频生成基于流匹配蒸馏的统一高效多模态音频生成框架:支持文本视频音频条件控制的高质量音乐与音效合成系统设计提供源码
2026-06-13
语音翻译基于偏好学习的流式语音到语音翻译优化:减少打断性停顿以实现自然语音流畅度
2026-06-13
STREAMINGBENCH: ASSESSING THE GAP FOR MLLMS TO ACHIEVE STREAMING VIDEO UNDER STANDING
2026-05-28
【计算机视觉】基于大规模层级化语义分类的人体动作生成数据集RoMo构建:高保真三维运动与文本提示对齐模型研究
2026-05-28
【视频编码技术】国际视频编码标准发展演进研究:从HEVC到VVC的压缩效率提升与多功能应用系统设计
2026-05-28
Perceptual Quality Assessment of HEVC and VVC Standards for 8K Video
2026-05-26
【视频编码技术】基于VVC标准的消费电子应用:编码工具分析与实时部署方案研究
2026-05-26
One-for-all: An Efficient Variable Convolution Neural Network for In-loop Filter of VVC
2026-05-26
图像压缩基于Transformer与卷积融合的高效编码方法:面向紧凑表示的视觉特征聚合系统设计
2026-05-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅
1