- 博客(361)
- 资源 (4)
- 收藏
- 关注
原创 YOLO系列算法精讲:从yolov1至yolov8的进阶之路(2万字超全整理)
全网YOLO最详讲解,从v1到v10!从小白到大佬!
2020-07-30 17:16:43
351175
126
原创 Deepseek之N-gram:可扩展查找的条件记忆
理论贡献:首次提出条件记忆作为大语言模型稀疏性的新维度,弥补了现有MoE仅聚焦条件计算的缺陷,揭示了语言建模中静态知识存储与动态计算的二元结构,为稀疏模型设计提供了新的理论框架;通过构建稀疏分配问题,发现了MoE与条件记忆之间的U型缩放定律,为参数量的最优分配提供了定量依据。方法贡献:设计了Engram条件记忆模块,通过现代化改造经典N-gram嵌入实现了O(1)高效稀疏查找,融合上下文门控、多分支融合、系统级优化等设计,实现了静态知识检索与Transformer骨干的无缝融合,且兼具建模性能与硬件效率。
2026-02-20 01:08:26
698
原创 视觉令牌压缩:Vision-centric Token Compression in Large Language Model
VIST创新性地将视觉编码引入LLM长文本token压缩,通过模拟人类选择性阅读的快慢双路径架构,结合概率感知视觉增强目标,在大幅降低计算成本(减少16% FLOPs、50%内存)和提升token效率(2.3×压缩比)的同时,在长上下文建模、上下文学习、开放域问答等任务中超越传统文本编码器压缩方法。研究还验证了文本token中存在显著冗余,低频token是语义完整性的核心载体,为后续长文本处理研究提供了新视角。
2026-01-29 01:23:07
557
原创 DeepSeek-OCR v2 解读
DeepSeek-OCR 2 通过引入新型编码器 DeepEncoder V2,实现了视觉令牌的因果语义重排序,突破了传统视觉语言模型固定扫描顺序的局限。
2026-01-28 01:10:18
1261
原创 何恺明团队自回归生图模型:Fractal Generative Models
本文提出了一种新型分形生成模型(Fractal Generative Models),通过将生成模型抽象为原子模块并递归调用,构建具有自相似性的层级架构。
2026-01-23 00:33:55
658
原创 HunyuanImage3.0技术报告总结
腾讯混元团队推出开源图像生成模型HunyuanImage 3.0,采用原生多模态架构统一文本-图像理解与生成任务。
2026-01-23 00:20:31
591
原创 Deepseek开源:多模态理解与生成的统一模型Janus-Pro
本文针对Janus模型存在的不足,从训练策略、数据规模和模型尺寸三个关键维度进行优化,提出了Janus - Pro统一多模态理解与生成模型。该模型延续了解耦视觉编码的核心设计,通过优化训练流程、扩充高质量多样化训练数据以及增大模型容量,在多模态理解和文本到图像生成任务中均取得了突破性进展。实验结果表明,Janus - Pro系列模型在多个主流基准数据集上超越了现有先进模型,展现出卓越的多模态理解能力、强大的文本到图像指令遵循能力以及更稳定的生成质量。然而,Janus - Pro仍存在一定局限性。
2026-01-14 00:33:30
740
原创 Qwen-Image:复杂文本渲染与精准图像编辑的图像生成基础模型
Qwen-Image 通过全面的数据工程优化、渐进式课程学习策略、增强型多任务训练范式和高效的分布式训练架构,在复杂文本渲染和精准图像编辑两大核心任务上实现显著突破。该模型不仅支持多语言、多布局的高保真文本渲染,尤其在中文文本生成方面表现突出,还能在图像编辑中平衡语义连贯性与视觉一致性,同时具备强大的通用图像生成能力。实验结果表明,Qwen-Image 在多个公共基准测试中均达到 SOTA 性能,验证了其技术鲁棒性与广泛适用性。作为图像生成模型,它重新定义了生成建模的优先级,强调文本与图像的精准对齐;
2025-12-30 22:01:45
948
原创 【图层分离】Qwen-Image-Layered:通过图层分解实现固有可编辑性
香港科技大学、阿里巴巴联合推出图层分离模型 Qwen-Image-Layered, 可将单张 RGB 图像分解为多个语义解耦的 RGBA 图层,从而实现固有可编辑性!
2025-12-30 00:12:01
296
原创 MiniMax-M1开源!支持超长上下文大模型!
MiniMax-M1,是全球第一个开放权重、大规模混合注意力的推理模型。MiniMax-M1 采用了混合专家(MoE)架构,并结合了闪电注意力机制(Lightning Attention Mechanism)。该模型基于之前的 MiniMax-Text-01 模型 开发, 总共包含 4560 亿个参数,每个 token 激活 459 亿个参数。支持超长上下文:与 MiniMax-Text-01 一致,M1 模型原生支持 1 百万个 token 的上下文长度,是 DeepSeek R1 上下文大小的 8 倍。
2025-06-21 16:02:20
1189
原创 一文读懂 Qwen3 最新开源的 Embedding 和 Rerank 模型优势!
Qwen3 Embedding 与 Rerank 模型开源,助力搜索、排序技术革新!
2025-06-15 00:50:16
2325
转载 一文带你入门AI智能体(AI Agent)
AI小镇开源,含25个Agent,构建"西部世界"AI Town,模拟文明演进。OpenAI创始人Karpathy称AI Agent将颠覆未来。Agent源自拉丁语,意为“行动”,在LLM中指自主执行复杂任务的程序。Agent并非ChatGPT升级版,它不仅告诉你“如何做”,更会帮你去做。如果CoPilot是副驾驶,那么Agent就是主驾驶。一个精简的Agent决策流程,用函数表达式:感知(Perception)、规划(Planning)和行动(Action)。
2025-05-31 23:48:58
506
原创 阿里千问系列:Qwen大模型API调用(Python版)
官方参考链接:https://help.aliyun.com/zh/model-studio/vision?界面,找到需要授权的子业务空间后,单击其右侧的模型权限流控设置。3、选择需要的模型,编辑权限,并保存。,单击创建我的API-KEY。
2025-05-10 17:43:08
7210
原创 YOLOv11 解读
结构上的创新:引入了如C3k2模块、SPPF和C2PSA等新元素,增强了其特征提取和处理能力。这些改进使得模型能够更好地分析和解释复杂的视觉信息,在各种场景中可能提高检测精度。增强了注意力机制:集成了复杂的空域注意力机制,特别是C2PSA组件。使模型能够更有效地聚焦图像中的关键区域,增强了其检测和分析物体的能力。改进的注意力能力对于识别复杂或部分遮挡的物体尤为有利,解决了物体检测任务中常见的难题。多功能模型:YOLO11的多功能性超越了物体检测,包括实例分割、图像分类、姿态估计和定向物体检测等任务。
2025-04-12 21:06:05
2825
原创 ImportError: libGL.so.1: cannot open shared object file: No such file or directory 报错处理
OpenCV的某些依赖库缺失,比如libGL.so.1,而OpenCV在处理图像或视频时可能需要它。
2025-04-10 19:22:54
1607
原创 浅读LLAMA2
2023年7月,Mata正式推出Llama 2,包含一系列预训练和微调的大型语言模型(LLMs),参数规模从7B到70B不等。
2025-03-13 15:37:10
1000
原创 【DeepSeek系列】04 DeepSeek-R1:带有冷启动的强化学习
DeepSeek-R1-Zero的提出,展现了其强大的推理能力,但是它也有一些缺点,例如可读性差和语言混用。为了解决这些问题并进一步提升推理性能,进一步推出了 DeepSeek-R1,它在 RL 之前引入了多阶段训练和冷启动数据。DeepSeek-R1 在推理任务上的表现与 OpenAI-o1-1217 相当。
2025-02-19 23:55:07
1218
原创 【DeepSeek系列】03 DeepSeek-R1-Zero:在基础模型上进行纯强化学习
DeepSeek-R1-Zero 是一个通过大规模强化学习(RL)训练的模型,而无需先进行有监督的微调(SFT),展示了显著的推理能力。通过强化学习,DeepSeek-R1-Zero 自然地涌现出许多强大且有趣的推理行为。
2025-02-19 02:01:22
953
Fashion-MINIST.zip
2020-04-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅