LLM学习笔记-2

在未标记数据上进行预训练


  1. 本章概要

  2. 在上节的笔记中,因为训练出的效果,并不是特别理想,在本节中,会用数据进行训练,使得模型更加的好;
    改图为上一节笔记

  3. 计算文本生成损失

inputs = torch.tensor([[16833, 3626, 6100],   # ["every effort moves",
                       [40,    1107, 588]])   #  "I really like"]

targets = torch.tensor([[3626, 6100, 345  ],  # [" effort moves you",
                        [588,  428,  11311]]) #  " really like chocolate"]

假设我们有一个inputs张量,包含了2个训练样本(行)的标记ID。,以下改图,进行阐释了此词汇表的产生
在这里插入图片描述
在这里插入图片描述
在数学优化中,最大化概率分数的对数比分数值本身更容易,这里介绍一个回归损失函数Youtube

在这里插入图片描述
其中10.7722称为交叉熵损失。

  1. 训练阶段(代码整理完后更新)

  2. 训练结果
    在这里插入图片描述
    在这里插入图片描述

  3. 这次效果比上一节的效果好了很多。有很大的进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值