圣亦是光-CSDN博客

原创论文泛读：GPT-1

对 Transformer Decoder 模型的探索在在很大程度上是由 OpenAI 带头进行的，通过使用更大的数据集进行预训练，以及将模型的规模扩大，纯 Decoder 模型的性能也在不断提高。GPT：GPT-1是于2018年发布的第一个版本，它使用了12个Transformer编码器层和1.5亿个参数。GPT-1的训练数据包括了互联网上的大量文本。

2023-11-28 18:52:57 845

Pytorch 提供自动计算梯度的功能，可以自动计算一个函数关于一个变量在某一取值下的导数，从而基于梯度对参数进行优化，这就是机器学习中的训练过程。张量 (Tensor) 是深度学习的基础，例如常见的 0 维张量称为标量 (scalar)、1 维张量称为向量 (vector)、2 维张量称为矩阵 (matrix)。在有些情况下，即使两个张量形状不同，也可以通过广播机制 (broadcasting mechanism) 对其中一个或者同时对两个张量的元素进行复制，使得它们形状相同，然后再执行按元素计算。

2023-11-25 11:04:57 880 1

原创 Transformer介绍与应用

Transformer模型完全基于注意力机制，没有任何卷积层或循环神经网络层。Transformer的编码器和解码器是基于自注意力的模块叠加而成的，源（输入）序列和目标（输出）序列的嵌入(embedding）表示将加上位置编码（positional encoding），再分别输入到编码器和解码器中。尽管Transformer最初是应用于在文本数据上的序列到序列学习，但现在已经推广到各种现代的深度学习中，例如语言、视觉、语音和强化学习领域。

2023-11-23 21:14:43 1022

原创 loss函数中，reduction参数的作用

当输入样本是一个批次（batch）的数据时，通常希望对整个批次的样本计算一个单一的损失值，以便进行梯度计算和参数更新。其中，reduction=‘none’ 表示不进行降维，即返回每个样本的损失值，而不对它们进行求和或平均。可以得到整个批次样本的平均损失，适用于对损失进行汇总，并用于指导整体模型的训练和优化。在 PyTorch 的损失函数中，reduction 参数用于指定损失的降维方式。可以得到整个批次样本的总和损失，适用于需要获得整个批次的总体损失值的情况。是常用的降维方式，在计算损失函数时使用。

2023-11-14 12:41:06 650

加油加油加油加油

原创论文泛读：GPT-1

原创深度学习必学Pytorch基础

原创 Transformer介绍与应用

原创 loss函数中，reduction参数的作用

原创关于自然语言处理（NLP）论文的检索合集

原创大模型LLM相关综述（持续更新）

原创 cuda编程的一些基础知识

原创 CUDA编程存储体冲突问题，以及避免方式

空空如也

空空如也