LLM
文章平均质量分 72
骆驼穿针眼
这个作者很懒,什么都没留下…
展开
-
llama 2 改进之 RMSNorm
通过激活函数后,其中,随着前一层的更新,层的输入分布会发生变化。论文假设LayerNorm中的重新居中不变性是可有可无的,并提出了均方根层归一化(RMSNorm)。RMSNorm根据均方根(RMS)将一层神经元的总和输入正则化,得到模型重新缩放不变性特性和隐式学习率适应能力。在本文中,假设重新缩放不变性是LayerNorm成功的原因,而不是重新定中心不变性。是增益参数,用于重新调整标准化求和输入的大小,一开始设置为 1。分别是根据原始求和输入估计的均值和方差统计量。的归一化替代值用于层激活。原创 2024-07-18 16:07:31 · 1152 阅读 · 0 评论 -
LLaMA 数据集
多样化数据来源:涵盖从网络抓取数据到书籍、科学论文和问答网站的数据。高效预处理:通过多种预处理技术确保数据的高质量和相关性,包括语言识别、质量过滤和重复数据删除。覆盖多语言:重点涵盖使用拉丁字母和西里尔字母的多种语言,提高模型的多语言处理能力。LLaMA 2在训练设置和模型架构上大部分继承了LLaMA 1的配置,但也进行了几项重要的改进和调整。LLaMA 2在保持LLaMA 1基础架构的同时,通过增加上下文长度和引入分组查询注意力机制,进一步提升了模型的能力。原创 2024-07-18 16:06:40 · 819 阅读 · 0 评论 -
LLaMA 背景
模型介绍:LLaMA是Meta开发的语言模型,旨在推动开放科学和人工智能的实践。参数范围:这些模型的参数数量从7B到65B不等,覆盖了不同规模的需求。训练数据:LLaMA模型是在数万亿个公开数据集的tokens上训练的,这使得它们具有广泛的语言理解和生成能力。LLaMA通过在大量训练数据上的优化,实现了高效的语言理解和生成能力,且在计算资源、存储和传输等方面具有显著优势,使其在实际应用中更具竞争力。原创 2024-07-18 13:56:16 · 434 阅读 · 0 评论 -
LLM 的储备知识
n Softmax层权值矩阵与目标语言词向量矩阵共享参数。Transformer Decoder 结构。• 掩码多头自注意神经网络。• 多头自注意神经网络。原创 2024-07-18 12:22:42 · 164 阅读 · 0 评论