- 博客(23)
- 收藏
- 关注
原创 面向大语言模型的通用提示压缩技术——500xCompressor
本文提出了500xCompressor方法,能够将大量自然语言上下文压缩为最少1个特殊标记。该方案引入约0.25%的额外参数,即可实现6x-480x的压缩比。适用于任意文本压缩,能回答各类问题,且无需微调即可被原有LLM直接使用。
2025-11-18 21:09:20
983
原创 基于大模型的上下文压缩及自编码器——ICAE
本文提出了一种基于大型语言模型(LLM)的上下文内自编码器(ICAE),通过将长上下文压缩为紧凑记忆槽来优化模型性能。ICAE采用两阶段训练:先在文本数据上通过自编码和语言建模目标进行预训练,再通过指令数据进行微调。实验表明,基于Llama模型的ICAE仅增加1%参数即可实现4倍上下文压缩,显著降低推理延迟和内存消耗,同时保持了良好的信息保留能力。研究还发现ICAE的记忆机制与人类相似,并展示了其在处理长上下文和多段记忆方面的潜力。该工作为LLM的上下文管理和记忆机制研究提供了新思路。
2025-11-14 12:42:09
1049
原创 解读 DeepSeek V3.2 稀疏注意力机制(DSA)
详解DeepSeek V3.2新引技术——“DeepSeek Sparse Attention”(DSA)稀疏注意力机制
2025-10-14 17:37:36
1189
原创 为什么现在的LLM都是Decoder-Only架构?
大语言模型(LLM)普遍采用Decoder-Only架构的原因在于其理论优势。研究表明,双向注意力机制存在低秩问题,可能削弱模型表达能力,而Decoder-Only的单向注意力能保持满秩矩阵,具有更强的表达能力。实验显示,在同等参数和计算成本下,Decoder-Only架构表现更优,而Encoder-Decoder架构的优势仅源于参数翻倍。因此,Decoder-Only成为当前LLM的主流选择。
2025-10-09 22:01:57
768
原创 LLM大模型(1)——prompt工程
LLM搭模型学习路线第一章节——Prompt提示词工程本文章将带你了解什么是Prompt提示词工程,以及优化提示词的方法
2025-05-12 03:50:09
828
原创 从零开始设计Transformer模型(2/2)——从Attention层到transformer网络
用多头Attention和多头Self-Attention搭建Transformer
2025-04-02 20:52:06
2285
原创 从零开始设计Transformer模型(1/2)——剥离RNN,保留Attention
本文旨在教会你一步一步从零开始搭建Transformer模型,学习Transformer中一个个组件,掌握其底层逻辑。帮助你更好理解Transformer
2025-04-02 11:15:25
2170
原创 RNN模型与NLP应用——(9/9)Self-Attention(自注意力机制)
本文借助Self-attention运用在Simple RNN上的例子,帮助你更深一步了解Self-attention的底层逻辑,和运算过程
2025-04-01 17:47:18
810
原创 RNN模型与NLP应用——(8/9)Attention(注意力机制)
带你了解什么是注意力机制,注意力机制的实际意义,让你理解注意力机制的底层逻辑
2025-04-01 12:53:37
764
原创 RNN模型与NLP应用——(7/9)机器翻译与Seq2Seq模型
机器翻译——Sequence to Sequence模型介绍,详细讲解Seq2Seq模型底层逻辑,以及实现过程
2025-03-31 21:55:56
1261
原创 RNN模型与NLP应用——(6/9)Text Generation(文本自动生成)
一篇文章让你了解文本生成底层逻辑,教会你如何搭建文本生成神经网络。
2025-03-31 11:14:25
1082
原创 RNN模型及NLP应用(3/9)——Simple RNN 模型
循环神经网络——Simple RNN模型一篇文章带你熟悉Simple RNN 模型的底层逻辑
2025-03-29 21:20:55
1123
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅