自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

yjc060228的博客

原创面向大语言模型的通用提示压缩技术——500xCompressor

本文提出了500xCompressor方法，能够将大量自然语言上下文压缩为最少1个特殊标记。该方案引入约0.25%的额外参数，即可实现6x-480x的压缩比。适用于任意文本压缩，能回答各类问题，且无需微调即可被原有LLM直接使用。

2025-11-18 21:09:20 983

原创基于大模型的上下文压缩及自编码器——ICAE

本文提出了一种基于大型语言模型（LLM）的上下文内自编码器（ICAE），通过将长上下文压缩为紧凑记忆槽来优化模型性能。ICAE采用两阶段训练：先在文本数据上通过自编码和语言建模目标进行预训练，再通过指令数据进行微调。实验表明，基于Llama模型的ICAE仅增加1%参数即可实现4倍上下文压缩，显著降低推理延迟和内存消耗，同时保持了良好的信息保留能力。研究还发现ICAE的记忆机制与人类相似，并展示了其在处理长上下文和多段记忆方面的潜力。该工作为LLM的上下文管理和记忆机制研究提供了新思路。

2025-11-14 12:42:09 1049

原创解读 DeepSeek V3.2 稀疏注意力机制（DSA）

详解DeepSeek V3.2新引技术——“DeepSeek Sparse Attention”(DSA)稀疏注意力机制

2025-10-14 17:37:36 1189

原创为什么现在的LLM都是Decoder-Only架构？

大语言模型（LLM）普遍采用Decoder-Only架构的原因在于其理论优势。研究表明，双向注意力机制存在低秩问题，可能削弱模型表达能力，而Decoder-Only的单向注意力能保持满秩矩阵，具有更强的表达能力。实验显示，在同等参数和计算成本下，Decoder-Only架构表现更优，而Encoder-Decoder架构的优势仅源于参数翻倍。因此，Decoder-Only成为当前LLM的主流选择。

2025-10-09 22:01:57 768

原创 LLM大模型（1）——prompt工程

LLM搭模型学习路线第一章节——Prompt提示词工程本文章将带你了解什么是Prompt提示词工程，以及优化提示词的方法

2025-05-12 03:50:09 828

原创为什么Transformer推理需要做KV缓存

一篇文章给你讲明白transformer中的KV缓存

2025-05-07 22:27:45 1137

原创 Transformer-PyTorch实战项目——文本分类

手把手教会实现Transformers实战项目——文本分类实例

2025-04-16 09:52:40 2520

原创 Pytorch实战项目（1）——分析电影评论（二分类）

从创建数据集开始，一步步就会你如何使用PyTorch搭建并训练一个二分类模型

2025-04-09 21:08:29 1312

原创 PyTorch复现逻辑回归

PyTorch基础——PyTorch复现逻辑回归

2025-04-03 21:37:52 1289

原创 PyTorch复现线性模型

PyTorch基础——PyTorch复现线性模型

2025-04-03 20:22:11 1090

原创从零开始设计Transformer模型（2/2）——从Attention层到transformer网络

用多头Attention和多头Self-Attention搭建Transformer

2025-04-02 20:52:06 2285

原创从零开始设计Transformer模型（1/2）——剥离RNN，保留Attention

本文旨在教会你一步一步从零开始搭建Transformer模型，学习Transformer中一个个组件，掌握其底层逻辑。帮助你更好理解Transformer

2025-04-02 11:15:25 2170

原创 RNN模型与NLP应用——（9/9）Self-Attention（自注意力机制）

本文借助Self-attention运用在Simple RNN上的例子，帮助你更深一步了解Self-attention的底层逻辑，和运算过程

2025-04-01 17:47:18 810

原创 RNN模型与NLP应用——（8/9）Attention（注意力机制）

带你了解什么是注意力机制，注意力机制的实际意义，让你理解注意力机制的底层逻辑

2025-04-01 12:53:37 764

原创 RNN模型与NLP应用——（7/9）机器翻译与Seq2Seq模型

机器翻译——Sequence to Sequence模型介绍，详细讲解Seq2Seq模型底层逻辑，以及实现过程

2025-03-31 21:55:56 1261

原创 RNN模型与NLP应用——（6/9）Text Generation(文本自动生成)

一篇文章让你了解文本生成底层逻辑，教会你如何搭建文本生成神经网络。

2025-03-31 11:14:25 1082

原创 RNN模型及NLP应用（5/9）——多层RNN、双向RNN、预训练

提升RNN训练效果的三种方式——双向RNN、多层RNN、预训练

2025-03-30 22:10:13 1265

原创 RNN模型及NLP应用（4/9）——LSTM模型

LSTM模型概要，快速了解什么是LSTM模型，LSTM的底层逻辑，以及用代码实现LSTM模型

2025-03-30 18:31:28 1131

原创 RNN模型及NLP应用（3/9）——Simple RNN 模型

循环神经网络——Simple RNN模型一篇文章带你熟悉Simple RNN 模型的底层逻辑

2025-03-29 21:20:55 1123

原创 RNN模型及NLP应用笔记（2/9）——文本处理与词嵌入

NLP基础：学会文本处理与词嵌入

2025-03-28 12:23:42 1173

原创深度学习编码练习（2）——搭建深层神经网络

神经网络进阶版，学会搭建深层神经网络

2025-03-27 21:57:14 839

原创 RNN模型及NLP应用笔记（1/9）——数据处理基础

NLP基础（1）——数据处理基础

2025-03-27 05:16:24 1176

原创深度学习编码练习（1）——构建简单神经网络

学会构建简单神经网络

2025-03-26 22:26:25 852

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除