自然语言处理
文章平均质量分 68
NLP
佛系调参
这个作者很懒,什么都没留下…
展开
-
LLM中损失函数解析
在GPT系列大语言模型中损失函数采用的是自回归语言建模任务,即根据前K-1个token预测第K个token,本质上都是交叉熵分类损失,在实现上预训练和监督微调稍有不同,本文分别进行介绍。原创 2023-12-04 19:43:57 · 6549 阅读 · 2 评论 -
nn.Embedding
nn.Embedding具有一个权重(.weight),形状是(num_words, embedding_dim)。例如一共有10个词,每个词用3维向量表征,对应的权重就是一个10×3的矩阵。Embedding的输入形状N×W,N是batch size,W是序列的长度,输出的形状是N×W×embedding_dim。在PyTorch中,针对词向量有一个专门的层nn.Embedding,用来实现词与词向量的映射。Embedding的权重是可以训练的,既可以采用随机初始化,也可以采用预训练好的词向量初始化。原创 2023-07-31 15:04:05 · 800 阅读 · 0 评论 -
《从GLM-130B到ChatGLM:大模型预训练与微调》笔记
BF16牺牲了数据精度(表示由10位降到7位),但扩大了数据的表示范围(有研究表明数据表示范围比精度更重要)有个参数服务器,模型参数在参数服务器上进行更新,然后所有节点pull模型参数。alpha取0.1,手动降低embedding层的梯度。在code数据集上训练,增强大模型的逻辑推理能力。GLM和LLaMA中采用RoPE旋转式编码。100B参数的大模型开始出现智能涌现。LLaMA采用BF16训练的。大部分内存占用为激活函数。原创 2023-06-05 22:13:11 · 858 阅读 · 0 评论 -
BERT论文核心点记录
BERT适合分类任务(整段分类后者词分类),对生成任务不友好使用BERT的方法:只需要在预训练好的BERT基础上新增一个输出层,然后用标记好的数据进行有监督微调Bidirectional Encoder双向Encoder实质上就是指Transformer中的encoder,双向是指在self-attention的每个位置能看到左/右两侧的上下文信息。原创 2023-05-25 22:05:11 · 796 阅读 · 0 评论 -
Tokenizer分词
在使用神经网络处理自然语言处理任务时,我们首先需要对数据进行预处理,将数据从字符串转换为神经网络可以接受的格式,一般会分为如下几步:(1)分词:使用分词器对文本数据进行分词(字、字词)得到token;原创 2023-05-05 10:05:04 · 3237 阅读 · 1 评论 -
GPT系列论文
GPT系列论文笔记原创 2023-04-04 21:49:02 · 1538 阅读 · 0 评论 -
ChatGPT和知识图谱视频笔记
prompting tuning未对模型参数进行更新, Fine tuning和Instruction tuning都对模型参数进行了更新。原创 2023-05-07 14:08:54 · 253 阅读 · 0 评论 -
大语言模型中的Finetune vs. prompt
好处。原创 2023-04-05 21:18:23 · 1177 阅读 · 0 评论 -
Word Embedding
缺点1.向量维度和向量个数很大,假设有1w个token的话,向量个数和维度就都是1w2. 语义相近的词的向量并不相似。原创 2023-05-07 16:27:47 · 595 阅读 · 0 评论