AI学习记录 - 解读llama3

持续更新中

这是github大佬的llama3的代码,我继续加上属于我自己的理解
https://github.com/naklecha/llama3-from-scratch

如何token化

special_tokens :token 就是你对自然语言的字符的拆分颗粒度以及拆分方式,在我同类文章当中有所介绍,包括bep算法概略介绍也有。下面代码加载llama3的token,然后自己添加上属于自己的token也就是special_tokens ,一般来说llama3训练主要以英文为主要,但是如果自己想要微调llama3变成中文法语德语的话,那肯定需要加上属于自己语言的token,虽然你不加也可以,原来的token词汇表肯定可以承接世界上所有的计算机语言,因为不管什么语言最终会转化为utf-8编码,但是单独的token训练出来效果会更好,不然你直接丢出一个中文训练集,对于llama来说,假设一个字 “好” 被拆分成3个utf-8编码,3个utf-8编码既承担了原有的英文语义,又要承担中文语义,fineturning的效果大概率不好。添加词汇表的时候,一般只能在最后面添加,因为词汇表其它位置它已经训练过了。

pat_str:就是对一个长文本是怎么拆分的,给出一段文本,“are you ok?” => are,you,ok,?,这就是依据正则表达式进行拆分,中文就是每个字都要拆分,拆分成小字符之后才会对每个单词进行token化。

下面是加载了llama3的词汇表,然后合并自己的special_token,成为了新的token词汇表,然后进行训练的。

from pathlib import Path
import tiktoken
from tiktoken.load import load_tiktoken_bpe
import torch
import json
import matplotlib.pyplot as plt

tokenizer_path = "Meta-Llama-3-8B/tokenizer.model"
special_tokens = [
            "<|begin_of_text|>",
            "<|end_of_text|>",
            "<|reserved_special_token_0|>",
            "<|reserved_special_token_1|>",
            "<|reserved_special_token_2|>",
            "<|reserved_special_token_3|>",
            "<|start_header_id|>",
            "<|end_header_id|>",
            "<|reserved_special_token_4|>",
            "<|eot_id|>",  # end of turn
        ] + [f"<|reserved_special_token_{i}|>" for i in range(5, 256 - 5)]
mergeable_ranks = load_tiktoken_bpe(tokenizer_path)
tokenizer = tiktoken.Encoding(
    name=Path(tokenizer_path).name,
    pat_str=r"(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\r\n\p{L}\p{N}]?\p{L}+|\p{N}{1,3}| ?[^\s\p{L}\p{N}]+[\r\n]*|\s*[\r\n]+|\s+(?!\S)|\s+",
    mergeable_ranks=mergeable_ranks,
    special_tokens={token: len(mergeable_ranks) + i for i, token in enumerate(special_tokens)},
)

tokenizer.decode(tokenizer.encode("hello world!"))

如何embedding

大佬写的代码是

embedding_layer = torch.nn.Embedding(vocab_size, dim)
embedding_layer.weight.data.copy_(model["tok_embeddings.weight"])
token_embeddings_unnormalized = embedding_layer(tokens).to(torch.bfloat16)
token_embeddings_unnormalized.shape

embedding层形状为

torch.Size([17, 4096]) 

我自己画的图,下面是矩阵乘法,因为onehot编码其它都是0,只有一个是1,按照矩阵乘法的定义,这里刚刚好直接取词汇表的指定某一层,就符合矩阵乘法的结果。这里是第7000层即可。
在这里插入图片描述

如何进行位置编码,我特意写了一篇旋转位置编码,都很长了,可以去看看,这里不介绍了

旋转位置编码
绝对位置编码

如何进行自注意力计算,我特意写了一篇自注意力,都很长了,可以去看看,这里不介绍了

注意力机制

多头自注意力机制

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值