自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Transformer 架构平替--RWKV 架构详解

Transformer 结构是当前大语言模型的主流模型架构,其具备构建灵活、易并 行、易扩展等优势。但是,Transformer也并非完美。其并行输入的机制会导致模型 规模随输入序列长度平方增长,导致其在处理长序列时面临计算瓶颈。为了提高计 算效率和性能,解决Transformer在长序列处理中的瓶颈问题,可以选择基于RNN 的语言模型。RNN在生成输出时,只考虑之前的隐藏状态和当前输入,理论上可 以处理无限长的序列。

2025-06-04 18:57:04 2663 1

原创 Encoder-only、Encoder-Decoder和Decoder-only主流大语言模型对比与思考(25年最全)

Encoder-only 模型以双向编码见长,适用于理解型任务;Encoder-Decoder 模型通过统一框架兼顾理解与生成,擅长跨任务迁移;Decoder-only 模型凭借自回归生成能力在复杂创作场景中占据主导。当前趋势显示,模型参数规模持续扩大(如 PaLM-540B),多模态融合(如 GPT-4、PaLM-2)与高效训练技术(如 MoE、稀疏注意力)成为研究重点,中文模型(如 ERNIE、ChatGLM)的生态建设亦逐步完善。

2025-06-03 19:50:10 1243

原创 大语言模型架构详解

随着数据资源和计算能力的爆发式增长,语言模型的参数规模和性能表现实 现了质的飞跃,迈入了大语言模型(LargeLanguageModel,LLM)的新时代。凭借着 庞大的参数量和丰富的训练数据,大语言模型不仅展现出了强大的泛化能力,还催 生了新智能的涌现,勇立生成式人工智能(ArtificialIntelligenceGeneratedContent, AIGC)的浪潮之巅。当前,大语言模型技术蓬勃发展,各类模型层出不穷。

2025-06-03 15:14:36 1593 1

原创 LightM-UNet:Mamba+Unet开启轻量视觉模型新时代

UNet [16] 作为一种成熟的医学图像分割算法,在与医学器官和病变相关的各种分割任务中得到了广泛应用,涵盖了各种医学图像模态。其对称的 ∪形编码器-解码器架构以及完整的跳跃连接为分割模型奠定了基础,由此也演变出大量基于编码器-解码器结果的分割模型和图像生成模型。

2025-03-18 21:05:33 2392 1

原创 多模态模型架构演变与相关知识总结

多模态学习(Multimodal Learning)是融合文本、图像、音频、视频等多种模态数据的机器学习方法,通过融合多种数据模态来训练模型,从而提高模型的感知与理解能力,实现跨模态的信息交互与融合,旨在提升模型对复杂现实场景的理解与生成能力。文章主要从模态表示、多模态融合、跨模态对齐和多模态模型架构四个方面,系统地总结了多模态学习的相关知识。

2025-03-18 03:13:38 2010 1

原创 Transformers without Normalization:归一化层在 Transformer 架构中必要性讨论

2025年3月14日何凯明大神发表新作Transformers without Normalization,讨论了归一化层(Normalization layers)在Transformer架构模型中的必要性。

2025-03-18 01:10:27 2416 3

原创 Transformer 结构解析:开启序列处理的新时代

因为 Transformer 的编码器 - 解码器结构输出的特征向量维度是固定的,而最终要预测的是词汇表中的某个 token,所以需要把特征向量映射到和词汇表大小相同的维度,每个维度对应词汇表中的一个 token。计算如下图所示,注意 X, Q, K, V 的每一行都表示一个单词。之后,Multi-Head Attention 将它们拼接在一起 (Concat),然后传入一个Linear层,得到 Multi-Head Attention 最终的输出Z,矩阵Z与其输入的矩阵X的维度相同。

2025-03-17 23:50:06 1071 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除