- 博客(316)
- 资源 (5)
- 收藏
- 关注
原创 论文理解【LLM】—— TinyStories: How Small Can Language Models Be and Still Speak Coherent English?
本文在儿童故事这个非常垂直的领域数据上训练小规模语言模型(SLM),发现其具有和 LLM 相似的性能,相关分析对于理解 LMs 的能力很有参考意义
2024-07-25 21:36:41
605
原创 论文理解【LLM】—— What Language Model Architecture and Pretraining Objective Work Best for Zero-Shot...
本文通过对模型架构、预训练目标、是否多任务微调等进行大规模排列组合实验,找到了 LLM 的最佳训练方案,得到的工程结论对于我们设计实验很有帮助
2024-07-25 00:28:19
697
原创 Hugging face Transformers(4)—— Model
本文介绍 Hugging face transformers 库中 model 组件的用法
2024-07-09 02:25:41
323
原创 Hugging face Transformers(3)—— Tokenizer
本文介绍 Hugging Face Transformers 库中 Tokenizer 组件的基础用法
2024-07-06 22:18:41
1060
原创 Hugging face Transformers(2)—— Pipeline
本文介绍 Hugging face Transformers 库中 Pipeline 的基础用法,它可以帮我们快速调用预训练模型完成各类任务
2024-07-06 19:41:17
1010
原创 详解三种常用标准化 Batch Norm & Layer Norm & RMSNorm
详细说明 Batch Norm / Layer Norm / RMSNorm
2024-06-24 22:35:17
1351
3
原创 Pytorch入门(7)—— 梯度累加(Gradient Accumulation)
本文介绍梯度累加技巧及其pytorch实现。该技巧通过延迟参数更新时机,允许模型在显存容量有限时使用更大的等效batch size进行训练
2024-05-24 17:43:30
1642
原创 从费舍尔信息矩阵(Fisher Information Matrix, FIM)到自然梯度法
本文以自然梯度法的推导为脉络,贯穿黎曼空间、黎曼流形、黎曼度量、费舍尔信息矩阵、KL 散度和自然梯度法等概念。这是 TRPO 算法理论的重要基础
2024-01-18 09:01:19
2365
原创 序列模型(4)—— Scaling Laws
本文介绍 LLM 训练过程中重要的经验规律 Scaling Laws,它可以指导我们如何最大化训练效率,我们还可以借助它通过小规模实验预测大模型的性能表现
2024-01-10 04:40:46
1754
原创 序列模型(3)—— LLM的参数量和计算量
本文说明重要结论:设模型参数量为 N,训练数据量(Token)为 D,LLM训练中计算量(FLOPs)C ≈ 6ND
2024-01-07 09:47:59
2853
原创 项目demo —— GPT 聊天机器人
本文介绍我基于 Openai GPT API 开发的 telegram 聊天机器人。该 bot 具有催眠聊天、图像生成、语音输入输出等多模态交互能力,代码开源
2023-11-29 19:54:50
2885
9
原创 论文速览【ML4CO】—— 【Ptr-Net】Pointer Networks
标题:Pointer Networks;发表:NIPS 2015;领域:序列模型(seq2seq)改进 / 深度学习解决组合优化问题
2023-09-25 20:27:46
385
2
原创 Pytorch 多卡并行(3)—— 使用 DDP 加速 minGPT 训练
本文介绍如何使用 DDP 和混合精度训练方法来高效地训练一个 MinGPT 模型
2023-09-12 15:37:30
1183
2
原创 Pytorch 多卡并行(2)—— 使用 torchrun 进行容错处理
本文介绍如何使用 torchrun 框架改写 DDP 单机多卡并行代码,增强容错性和稳定性
2023-09-12 12:48:13
8473
7
原创 Pytorch 多卡并行(1)—— 原理简介和 DDP 并行实践
本文介绍多卡并行原理,并用一个简单的例子演示 Pytorch 中的 DDP 多卡并行代码写法
2023-09-11 21:45:48
1250
原创 Pytorch入门(6)—— 梯度计算控制
本文计算控制 Pytorch 中梯度计算的集中方法,包括设置 tensor.requires_grad 字段以及三种梯度计算模式,还会介绍容易与之混淆的模型评估模式
2023-09-11 07:43:17
916
原创 RL 实践(7)—— CartPole【TRPO & PPO】
本文介绍 PPO 这个 online RL 的经典算法,并在 CartPole-V0 上进行测试。由于 PPO 是源自 TRPO 的,因此也会在原理部分介绍 TRPO
2023-08-15 11:51:47
785
2
原创 minGPT 代码详解(训练 GPT 模型执行两位数加法)
minGPT 是 GPT 模型的一个开源实现,因简洁干净解释性强而颇具教育意义。本文对该开源库实现的 GPT 代码进行详解,并给出一个使用它训练 GPT 模型计算两位数加法的例子
2023-07-31 04:59:31
2746
2
原创 RL 实践(6)—— CartPole【REINFORCE with baseline & A2C】
本文介绍 REINFORCE with baseline 和 A2C 这两个带 baseline 的策略梯度方法,并在 CartPole-V0 上验证它们和无 baseline 的原始方法 REINFORCE & Actor-Critic 的优势
2023-07-28 20:17:56
579
2
原创 RL 实践(5)—— 二维滚球环境【REINFORCE & Actor-Critic】
本文介绍如何用 REINFORCE 和 Actor-Critic 这两个策略梯度方法解二维滚球问题
2023-07-26 17:22:23
304
原创 RL 实践(4)—— 二维滚球环境【DQN & Double DQN & Dueling DQN】
本文介绍如何用 DQN 及它的两个改进 Double DQN & Dueling DQN 解二维滚球问题
2023-07-22 15:25:33
318
原创 论文速览【Offline RL】—— 【CQL】Conservative Q-Learning for Offline Reinforcement Learning
标题:Conservative Q-Learning for Offline Reinforcement Learning;发表:NIPS 2020;领域:离线强化学习(offline/batch RL)—— RL-Based
2023-07-08 08:51:13
593
原创 论文速览【LLM】—— 【Transformer-XL】Attentive Language Models Beyond a Fixed-Length Context
标题:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context;发表:ACL 2019;领域:Transformer (decoder) 改进
2023-06-26 22:07:03
539
6
原创 论文速览【Offline RL】——【IQL】Offline reinforcement learning with implicit Q-Learning
【速览】标题:Offline reinforcement learning with implicit Q-Learning;发表:ICLR 2022;领域:离线强化学习(offline/batch RL)—— IL-Based
2023-02-06 15:05:20
1724
1
原创 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation
标题:Offline RL Without Off-Policy Evaluation;发表:NIPS 2021;领域:离线强化学习(offline/batch RL)—— RL-Based / One-step
2023-01-30 03:38:29
818
原创 论文理解【Offline RL】——【BooT】Bootstrapped Transformer for Offline Reinforcement Learning
标题:Bootstrapped Transformer for Offline Reinforcement Learning;发表:NIPS 2022;领域:离线强化学习(offline/batch RL)—— Transformer-Based / 数据增强
2023-01-12 18:34:23
407
原创 论文理解【Offline RL】——【TT】Offline Reinforcement Learning as One Big Sequence Modeling Problem
标题:Offline Reinforcement Learning as One Big Sequence Modeling Problem;发表:NIPS 2021;领域:离线强化学习(offline/batch RL)—— Transformer-Based / Model-Based
2023-01-08 00:01:04
722
7
通信协议.cpp
2019-08-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人