AI 菌-CSDN博客

原创 YOLO系列算法精讲：从yolov1至yolov8的进阶之路（2万字超全整理）

全网YOLO最详讲解，从v1到v10！从小白到大佬！

2020-07-30 17:16:43 351175 126

原创 Deepseek之N-gram：可扩展查找的条件记忆

理论贡献：首次提出条件记忆作为大语言模型稀疏性的新维度，弥补了现有MoE仅聚焦条件计算的缺陷，揭示了语言建模中静态知识存储与动态计算的二元结构，为稀疏模型设计提供了新的理论框架；通过构建稀疏分配问题，发现了MoE与条件记忆之间的U型缩放定律，为参数量的最优分配提供了定量依据。方法贡献：设计了Engram条件记忆模块，通过现代化改造经典N-gram嵌入实现了O(1)高效稀疏查找，融合上下文门控、多分支融合、系统级优化等设计，实现了静态知识检索与Transformer骨干的无缝融合，且兼具建模性能与硬件效率。

2026-02-20 01:08:26 698

原创 ThinkGen: 面向视觉生成的泛化推理模型

本文首次将MLLM的CoT推理能力泛化到通用视觉生成任务！

2026-02-10 01:18:03 985

原创视觉令牌压缩：Vision-centric Token Compression in Large Language Model

VIST创新性地将视觉编码引入LLM长文本token压缩，通过模拟人类选择性阅读的快慢双路径架构，结合概率感知视觉增强目标，在大幅降低计算成本（减少16% FLOPs、50%内存）和提升token效率（2.3×压缩比）的同时，在长上下文建模、上下文学习、开放域问答等任务中超越传统文本编码器压缩方法。研究还验证了文本token中存在显著冗余，低频token是语义完整性的核心载体，为后续长文本处理研究提供了新视角。

2026-01-29 01:23:07 557

原创 DeepSeek-OCR v2 解读

DeepSeek-OCR 2 通过引入新型编码器 DeepEncoder V2，实现了视觉令牌的因果语义重排序，突破了传统视觉语言模型固定扫描顺序的局限。

2026-01-28 01:10:18 1261

原创 DeepSeek-OCR 解读

本文提出DeepSeek-OCR模型，通过光学二维映射实现长文本的高效压缩。

2026-01-25 22:42:53 762

原创何恺明团队自回归生图模型：Fractal Generative Models

本文提出了一种新型分形生成模型（Fractal Generative Models），通过将生成模型抽象为原子模块并递归调用，构建具有自相似性的层级架构。

2026-01-23 00:33:55 658

原创 HunyuanImage3.0技术报告总结

腾讯混元团队推出开源图像生成模型HunyuanImage 3.0，采用原生多模态架构统一文本-图像理解与生成任务。

2026-01-23 00:20:31 591

原创何恺明团队新作：Just Image Transformers（JiT）生成模型

本文提出一种基于直接预测干净图像（x-预测）的JiT生成模型。

2026-01-21 23:23:23 701

原创 Deepseek开源：多模态理解与生成的统一模型Janus-Pro

本文针对Janus模型存在的不足，从训练策略、数据规模和模型尺寸三个关键维度进行优化，提出了Janus - Pro统一多模态理解与生成模型。该模型延续了解耦视觉编码的核心设计，通过优化训练流程、扩充高质量多样化训练数据以及增大模型容量，在多模态理解和文本到图像生成任务中均取得了突破性进展。实验结果表明，Janus - Pro系列模型在多个主流基准数据集上超越了现有先进模型，展现出卓越的多模态理解能力、强大的文本到图像指令遵循能力以及更稳定的生成质量。然而，Janus - Pro仍存在一定局限性。

2026-01-14 00:33:30 740

原创 Qwen-Image：复杂文本渲染与精准图像编辑的图像生成基础模型

Qwen-Image 通过全面的数据工程优化、渐进式课程学习策略、增强型多任务训练范式和高效的分布式训练架构，在复杂文本渲染和精准图像编辑两大核心任务上实现显著突破。该模型不仅支持多语言、多布局的高保真文本渲染，尤其在中文文本生成方面表现突出，还能在图像编辑中平衡语义连贯性与视觉一致性，同时具备强大的通用图像生成能力。实验结果表明，Qwen-Image 在多个公共基准测试中均达到 SOTA 性能，验证了其技术鲁棒性与广泛适用性。作为图像生成模型，它重新定义了生成建模的优先级，强调文本与图像的精准对齐；

2025-12-30 22:01:45 948

原创【图层分离】Qwen-Image-Layered：通过图层分解实现固有可编辑性

香港科技大学、阿里巴巴联合推出图层分离模型 Qwen-Image-Layered, 可将单张 RGB 图像分解为多个语义解耦的 RGBA 图层，从而实现固有可编辑性!

2025-12-30 00:12:01 296

原创【多模态大模型实战 02】Qwen2.5-VL技术报告解读：从模型架构到训练策略

Qwen2.5-VL技术报告解读！

2025-09-24 00:41:06 1316

原创【多模态大模型实战 01】Qwen2.5-VL-3B 基础环境配置

Qwen2.5-VL系列基础环境配置！

2025-09-22 21:56:02 417

原创书生大模型系列：InternVL3.5多模态大模型解读

InternVL3.5多模态大模型开源！

2025-09-04 01:45:44 1640

原创智谱多模态系列：GLM-4.5V 环境配置与本地部署

智谱多模态大模型GLM-4.5V环境配置与本地部署一站式教程！

2025-08-25 23:59:13 1140

原创阿里千问系列：Qwen3 强化学习新算法GSPO！

Qwen3提出最新强化学习算法GSPO！

2025-08-11 21:37:02 1026

原创阿里千问系列：Qwen2.5-VL-7B-Instruct 多模态模型本地部署

Qwen2.5-VL-7B大模型部署指南！

2025-07-24 01:12:24 1395

原创文心一言大模型4.5系列开源测评

百度开源多模态大模型ERNIE-4.5-VL-424B-A47B

2025-07-13 16:01:11 1702

原创谷歌多模态系列：Gemma 3n 轻量级大模型解读与本地部署

谷歌 Gemma 3n 多模态大模型开源！轻量级，适用于边缘设备部署！

2025-06-29 20:54:42 1724

转载强化学习：RL for LLM本质理解

本文探讨了监督学习在大型语言模型(LLM)发展中的局限性及其突破路径

2025-06-21 23:21:11 258

原创 MiniMax-M1开源！支持超长上下文大模型！

MiniMax-M1，是全球第一个开放权重、大规模混合注意力的推理模型。MiniMax-M1 采用了混合专家（MoE）架构，并结合了闪电注意力机制（Lightning Attention Mechanism）。该模型基于之前的 MiniMax-Text-01 模型开发，总共包含 4560 亿个参数，每个 token 激活 459 亿个参数。支持超长上下文：与 MiniMax-Text-01 一致，M1 模型原生支持 1 百万个 token 的上下文长度，是 DeepSeek R1 上下文大小的 8 倍。

2025-06-21 16:02:20 1189

原创小米MiMo系列：多模态 MiMo-VL-7B 技术报告解读

小米MiMo系列，多模态大模型MiMo-VL-7B开源！

2025-06-18 21:04:06 930

原创小米MiMo系列：MiMo-7B-RL技术报告解读

小米MiMO开源！从预训练到后训练，解锁语言模型的推理潜力！

2025-06-15 19:21:01 1264

原创一文读懂 Qwen3 最新开源的 Embedding 和 Rerank 模型优势！

Qwen3 Embedding 与 Rerank 模型开源，助力搜索、排序技术革新！

2025-06-15 00:50:16 2325

转载一文带你入门AI智能体（AI Agent）

AI小镇开源，含25个Agent，构建"西部世界"AI Town，模拟文明演进。OpenAI创始人Karpathy称AI Agent将颠覆未来。Agent源自拉丁语，意为“行动”，在LLM中指自主执行复杂任务的程序。Agent并非ChatGPT升级版，它不仅告诉你“如何做”，更会帮你去做。如果CoPilot是副驾驶，那么Agent就是主驾驶。一个精简的Agent决策流程，用函数表达式：感知(Perception)、规划(Planning)和行动(Action)。

2025-05-31 23:48:58 506

原创阿里千问系列：Qwen3技术报告解读（下）

阿里千问系列最新模型Qwen3，核心训练过程揭秘！

2025-05-25 17:13:51 1879

原创阿里千问系列：Qwen3技术报告解读（上）

通义千问大模型Qwen3技术报告全文概览！

2025-05-25 15:13:15 1368

原创阿里千问系列：Qwen大模型API调用（Python版）

官方参考链接：https://help.aliyun.com/zh/model-studio/vision?界面，找到需要授权的子业务空间后，单击其右侧的模型权限流控设置。3、选择需要的模型，编辑权限，并保存。，单击创建我的API-KEY。

2025-05-10 17:43:08 7210

原创 YOLOv11 解读

结构上的创新：引入了如C3k2模块、SPPF和C2PSA等新元素，增强了其特征提取和处理能力。这些改进使得模型能够更好地分析和解释复杂的视觉信息，在各种场景中可能提高检测精度。增强了注意力机制：集成了复杂的空域注意力机制，特别是C2PSA组件。使模型能够更有效地聚焦图像中的关键区域，增强了其检测和分析物体的能力。改进的注意力能力对于识别复杂或部分遮挡的物体尤为有利，解决了物体检测任务中常见的难题。多功能模型：YOLO11的多功能性超越了物体检测，包括实例分割、图像分类、姿态估计和定向物体检测等任务。

2025-04-12 21:06:05 2825

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

YOLOv11目标检测论文

CVPR2020-目标检测合集.7z

2020年中国研究生数学建模竞赛赛题.7z

start.sh.txt

Fashion-MINIST.zip

空空如也