大模型
文章平均质量分 65
佛系调参
这个作者很懒,什么都没留下…
展开
-
LLM中损失函数解析
在GPT系列大语言模型中损失函数采用的是自回归语言建模任务,即根据前K-1个token预测第K个token,本质上都是交叉熵分类损失,在实现上预训练和监督微调稍有不同,本文分别进行介绍。原创 2023-12-04 19:43:57 · 5666 阅读 · 2 评论 -
多模态大模型总结1(2021和2022年)
CLIP中采用的对比损失,最大化配对文本对的余弦相似度,最小化非配对文本对的余弦相似度,采用交叉熵损失实现BERT中采用的掩码语言建模任务,也是对每一个[MASK]进行分类二分类损失,预测输入的(图像-文本)对是配对的还是非配对的ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision首次提出,在图像编码器中不需要采用目标检测器,直接采用图像的patch embedding。但只采用图像的embedding原创 2023-11-26 19:42:52 · 446 阅读 · 2 评论 -
多模态常见任务介绍
给定一个图片以及问题,需要理解图片的内容并基于此用自然语言回答问题。例如,图像中发生什么事,人物穿的衣服是什么颜色,图像中有多少架飞机等。例如,TDIUC(Task Directed Image Understanding Challege) 是一个任务导向的图像理解数据集。作者收集了 VQAv2 等数据集,并进一步划分为 12 个子任务。原创 2023-11-24 13:54:09 · 812 阅读 · 0 评论 -
nn.Embedding
nn.Embedding具有一个权重(.weight),形状是(num_words, embedding_dim)。例如一共有10个词,每个词用3维向量表征,对应的权重就是一个10×3的矩阵。Embedding的输入形状N×W,N是batch size,W是序列的长度,输出的形状是N×W×embedding_dim。在PyTorch中,针对词向量有一个专门的层nn.Embedding,用来实现词与词向量的映射。Embedding的权重是可以训练的,既可以采用随机初始化,也可以采用预训练好的词向量初始化。原创 2023-07-31 15:04:05 · 753 阅读 · 0 评论