自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 面向大语言模型的通用提示压缩技术——500xCompressor

本文提出了500xCompressor方法,能够将大量自然语言上下文压缩为最少1个特殊标记。该方案引入约0.25%的额外参数,即可实现6x-480x的压缩比。适用于任意文本压缩,能回答各类问题,且无需微调即可被原有LLM直接使用。

2025-11-18 21:09:20 983

原创 基于大模型的上下文压缩及自编码器——ICAE

本文提出了一种基于大型语言模型(LLM)的上下文内自编码器(ICAE),通过将长上下文压缩为紧凑记忆槽来优化模型性能。ICAE采用两阶段训练:先在文本数据上通过自编码和语言建模目标进行预训练,再通过指令数据进行微调。实验表明,基于Llama模型的ICAE仅增加1%参数即可实现4倍上下文压缩,显著降低推理延迟和内存消耗,同时保持了良好的信息保留能力。研究还发现ICAE的记忆机制与人类相似,并展示了其在处理长上下文和多段记忆方面的潜力。该工作为LLM的上下文管理和记忆机制研究提供了新思路。

2025-11-14 12:42:09 1049

原创 解读 DeepSeek V3.2 稀疏注意力机制(DSA)

详解DeepSeek V3.2新引技术——“DeepSeek Sparse Attention”(DSA)稀疏注意力机制

2025-10-14 17:37:36 1189

原创 为什么现在的LLM都是Decoder-Only架构?

大语言模型(LLM)普遍采用Decoder-Only架构的原因在于其理论优势。研究表明,双向注意力机制存在低秩问题,可能削弱模型表达能力,而Decoder-Only的单向注意力能保持满秩矩阵,具有更强的表达能力。实验显示,在同等参数和计算成本下,Decoder-Only架构表现更优,而Encoder-Decoder架构的优势仅源于参数翻倍。因此,Decoder-Only成为当前LLM的主流选择。

2025-10-09 22:01:57 768

原创 LLM大模型(1)——prompt工程

LLM搭模型学习路线第一章节——Prompt提示词工程本文章将带你了解什么是Prompt提示词工程,以及优化提示词的方法

2025-05-12 03:50:09 828

原创 为什么Transformer推理需要做KV缓存

一篇文章给你讲明白transformer中的KV缓存

2025-05-07 22:27:45 1137

原创 Transformer-PyTorch实战项目——文本分类

手把手教会实现Transformers实战项目——文本分类实例

2025-04-16 09:52:40 2520

原创 Pytorch实战项目(1)——分析电影评论(二分类)

从创建数据集开始,一步步就会你如何使用PyTorch搭建并训练一个二分类模型

2025-04-09 21:08:29 1312

原创 PyTorch复现逻辑回归

PyTorch基础——PyTorch复现逻辑回归

2025-04-03 21:37:52 1289

原创 PyTorch复现线性模型

PyTorch基础——PyTorch复现线性模型

2025-04-03 20:22:11 1090

原创 从零开始设计Transformer模型(2/2)——从Attention层到transformer网络

用多头Attention和多头Self-Attention搭建Transformer

2025-04-02 20:52:06 2285

原创 从零开始设计Transformer模型(1/2)——剥离RNN,保留Attention

本文旨在教会你一步一步从零开始搭建Transformer模型,学习Transformer中一个个组件,掌握其底层逻辑。帮助你更好理解Transformer

2025-04-02 11:15:25 2170

原创 RNN模型与NLP应用——(9/9)Self-Attention(自注意力机制)

本文借助Self-attention运用在Simple RNN上的例子,帮助你更深一步了解Self-attention的底层逻辑,和运算过程

2025-04-01 17:47:18 810

原创 RNN模型与NLP应用——(8/9)Attention(注意力机制)

带你了解什么是注意力机制,注意力机制的实际意义,让你理解注意力机制的底层逻辑

2025-04-01 12:53:37 764

原创 RNN模型与NLP应用——(7/9)机器翻译与Seq2Seq模型

机器翻译——Sequence to Sequence模型介绍,详细讲解Seq2Seq模型底层逻辑,以及实现过程

2025-03-31 21:55:56 1261

原创 RNN模型与NLP应用——(6/9)Text Generation(文本自动生成)

一篇文章让你了解文本生成底层逻辑,教会你如何搭建文本生成神经网络。

2025-03-31 11:14:25 1082

原创 RNN模型及NLP应用(5/9)——多层RNN、双向RNN、预训练

提升RNN训练效果的三种方式——双向RNN、多层RNN、预训练

2025-03-30 22:10:13 1265

原创 RNN模型及NLP应用(4/9)——LSTM模型

LSTM模型概要,快速了解什么是LSTM模型,LSTM的底层逻辑,以及用代码实现LSTM模型

2025-03-30 18:31:28 1131

原创 RNN模型及NLP应用(3/9)——Simple RNN 模型

循环神经网络——Simple RNN模型一篇文章带你熟悉Simple RNN 模型的底层逻辑

2025-03-29 21:20:55 1123

原创 RNN模型及NLP应用笔记(2/9)——文本处理与词嵌入

NLP基础:学会文本处理与词嵌入

2025-03-28 12:23:42 1173

原创 深度学习编码练习(2)——搭建深层神经网络

神经网络进阶版,学会搭建深层神经网络

2025-03-27 21:57:14 839

原创 RNN模型及NLP应用笔记(1/9)——数据处理基础

NLP基础(1)——数据处理基础

2025-03-27 05:16:24 1176

原创 深度学习编码练习(1)——构建简单神经网络

学会构建简单神经网络

2025-03-26 22:26:25 852

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除