- 博客(7)
- 收藏
- 关注
原创 LLM Tutorial 3. RLHF之强化学习PPO
Proximal Policy Optimization (PPO, 近端策略优化算法), 是OpenAI于2017年提出的强化学习算法,已成为OpenAi内部的默认强化学习算法。强化学习与机器学习不同,他是根据agnet与环境不停实时地交互来学习的,因此与机器学习固定的数据集相比,强化学习的数据集是动态的,具有很强的随机性。
2024-06-19 00:29:14 845
原创 LLM Tutorial 2. Fine tune
预训练部分先往后推推,从Fine tunning讲起大模型往往预训练于比较general的数据集。当运用到实际场景时,大模型往往会遇到没见过数据集而回答混乱的情况,因此需要Fine tune网络来提升模型的性能。按照以往的Full Fine tune方法(如添加适应层,优化参数等),需要从头到尾再训练一次大模型,这对于动则几十B的大模型来说并不现实。
2024-06-06 01:04:09 857
原创 LLM Tutorial 1. LLM 结构3. GPT2
根据输入位置信息,在当前位置的token之后的token会被遮挡,通过加入一层maksed self-attention ,减小多头注意力计算中后续token对当前token的影响,只关心当前及之前的token。2. decoder only中掩码的结构会掩盖上半/下半部分的注意力权重,而经过softmax取权重后可以保证对角线上都为整数,矩阵满秩。1. Encoder的双向注意力可能会有更好的效果,但也同时引入了2倍数量的参数。3. 与BERT双向注意力模型不同,采用decoder only的结构。
2024-05-17 16:07:38 212
原创 LLM Tutorial 1. LLM结构 2.Transformer
Transformer是第一个将注意力机制发挥到机制的encoder-decoder模型,其中encoder component部分由一系列encoder堆叠而成,而decoder component部分由一系列decoder堆叠而成。
2024-05-16 23:53:40 1044
原创 LLM Tutorial 1. LLM结构 1. 注意力机制(早期)
假设当前有一个长度为n的输入,一个长度为m的输出经过某encoder后得到一个Hidden State输出decode从隐状态context开始逐渐将其映射到输出序列上,decode网络的隐状态假设为其中是所有输入隐状态context的加权和其中为alignment score,描述某输出单词与某输入单词的匹配关系当然也可以训练得来, 下列是几种当时论文所提及的注意力计算方法在注意力的框架下,源序列与目标序列之间的依赖关系不再受中间距离的限制。
2024-05-15 23:24:49 399
原创 NLP Tutorial 2 Word2Vec
词向量的意义:将字典中的单个词映射为一个固定长度的向量基于词向量,语言可以更好地被引入机器学习模型并进行训练。
2024-05-11 00:19:09 709
原创 NLP Tutorial 1: 从预处理到向量化方法
一张表通常包含120条规则,按后缀的最后一个字母检索索引,在每次迭代中,尝试通过单词的最后一个字符找到适用的规则,如果没有这样的规则则终止,(还有一些其他的终止条件如如果一个单词以元音开头并且只剩下两个字母,或者如果一个单词以辅音开头并且只剩下三个字符等语法形条件)每一个字节片段称为gram,对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤 (最大频率,最小频率等),形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。
2024-05-05 23:51:14 618 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人