![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大模型原理详解与实战
文章平均质量分 92
本专栏从大模型的基本原理出发,深入浅出地分享大模型结构、训练、推理加速等方面原理及实战记录。
穿着帆布鞋也能走猫步
这个作者很懒,什么都没留下…
展开
-
三万字长文超详细解读LLama2!
自从Transformer架构问世以来,大型语言模型(Large Language Models, LLMs)以及AIGC技术的发展速度惊人,它们不仅在技术层面取得了重大突破,还在商业应用、社会影响等多个层面展现出巨大潜力。随着ChatGPT的推出,这一技术日益走进大众视野,这也预示着一个由生成式AI塑造的未来正在加速到来。与此同时,Meta AI Meta AI在2023年推出了LLama(Large Language Model Meta AI)系列大语言模型,这一模型初期是以较为封闭的形式面向特定原创 2024-04-18 11:51:40 · 877 阅读 · 0 评论 -
一文搞懂Tokenization
语言模型是对文本进行推理,文本通常是字符串形式,但是模型的输入只能是数字,因此需要将文本转换成数字形式。Tokenization是NLP的基本任务,按照特定需求能把一段连续的文本序列(如句子、段落等)切分为一个字符串序列(如单词、短语、字符、标点等多个单元),其中的元素称为token或词语。具体流程如下图所示,首先将文本句子切分成一个个单元,然后将子单元数值化(映射为向量),再将这些向量输入到模型进行编码,最后输出到下游任务进一步得到最终的结果。原创 2024-04-11 17:32:29 · 743 阅读 · 0 评论 -
使用Pytorch从零实现Transformer模型
2017年Google在论文《Attention is All You Need》中提出了Transformer模型,并成功应用到NLP领域。该模型完全基于自注意力机制Attention mechanism实现,弥补了传统的RNN模型的不足。本文笔者将详解使用Pytorch从零开始逐步实现Transformer模型。原创 2024-04-10 10:31:54 · 1450 阅读 · 0 评论 -
大概是最全的开源大模型LLM盘点了吧!
LLM(Large Language Model, 大型语言模型)是指那些规模庞大、参数数量众多的深度神经网络模型,用于理解和生成自然语言文本。在自然语言处理(NLP)领域有着广泛的应用,因其强大的语言理解和生成能力,能够处理各种复杂的文本任务,包括但不限于翻译、问答、文本摘要、对话、文本分类、情感分析、代码生成、创作辅助等。LLM主要基于Transformer架构,该架构由Vaswani等人在2017年的论文《Attention is All You Need》中提出。原创 2024-04-10 10:24:05 · 1254 阅读 · 0 评论 -
超详细解读Transformer框架
首先我们先对Transformer来个直观的认识。Transformer出现以前,NLP领域应用基本都是以RNN或LSTM循环处理完成,一个token一个tokrn输入到模型中。模型本身是一种顺序结构,包含token在序列中的位置信息。会出现梯度消失现象,无法支持长时间序列。句子越靠后的token对结果的影响越大。只能利用上文信息,无法获取下文信息。循环网络逐个token输入,也就是句子有多长就要循环多少遍,计算的效率低。而Transformer的出现得以解决了上述的一系列问题。原创 2024-04-09 12:13:14 · 1165 阅读 · 0 评论 -
一文搞懂NLP框架之RNN、LSTM、Transformer结构原理!
NLP领域中,特征提取可谓是经历了显著的“变迁”与发展。回首过往,RNN曾以其一度引领潮流,如今正如同明日黄花,逐步淡出历史舞台。紧接着,LSTM以展现出强大的生命力,虽已非最前沿,却仍老骥伏枥,若能进一步优化,其潜力不可小觑。而今,Transformer架构如日中天,凭借自注意力机制彻底革新了特征提取的方法,已在NLP诸多任务中发挥着中流砥柱的作用。本文笔者将深入浅出剖析RNN、LSTM以及Transformer的核心结构原理,一起见证算法是怎样做到一浪更比一浪强的。原创 2024-04-09 11:56:53 · 1784 阅读 · 0 评论