- 博客(308)
- 资源 (5)
- 收藏
- 关注
原创 Pytorch入门(7)—— 梯度累加(Gradient Accumulation)
本文介绍梯度累加技巧及其pytorch实现。该技巧通过延迟参数更新时机,允许模型在显存容量有限时使用更大的等效batch size进行训练
2024-05-24 17:43:30 690
原创 从费舍尔信息矩阵(Fisher Information Matrix, FIM)到自然梯度法
本文以自然梯度法的推导为脉络,贯穿黎曼空间、黎曼流形、黎曼度量、费舍尔信息矩阵、KL 散度和自然梯度法等概念。这是 TRPO 算法理论的重要基础
2024-01-18 09:01:19 1360
原创 序列模型(4)—— Scaling Laws
本文介绍 LLM 训练过程中重要的经验规律 Scaling Laws,它可以指导我们如何最大化训练效率,我们还可以借助它通过小规模实验预测大模型的性能表现
2024-01-10 04:40:46 1627
原创 序列模型(3)—— LLM的参数量和计算量
本文说明重要结论:设模型参数量为 N,训练数据量(Token)为 D,LLM训练中计算量(FLOPs)C ≈ 6ND
2024-01-07 09:47:59 1927
原创 项目demo —— GPT 聊天机器人
本文介绍我基于 Openai GPT API 开发的 telegram 聊天机器人。该 bot 具有催眠聊天、图像生成、语音输入输出等多模态交互能力,代码开源
2023-11-29 19:54:50 2760 9
原创 论文速览【ML4CO】—— 【Ptr-Net】Pointer Networks
标题:Pointer Networks;发表:NIPS 2015;领域:序列模型(seq2seq)改进 / 深度学习解决组合优化问题
2023-09-25 20:27:46 348 2
原创 Pytorch 多卡并行(3)—— 使用 DDP 加速 minGPT 训练
本文介绍如何使用 DDP 和混合精度训练方法来高效地训练一个 MinGPT 模型
2023-09-12 15:37:30 1059 2
原创 Pytorch 多卡并行(2)—— 使用 torchrun 进行容错处理
本文介绍如何使用 torchrun 框架改写 DDP 单机多卡并行代码,增强容错性和稳定性
2023-09-12 12:48:13 5380 7
原创 Pytorch 多卡并行(1)—— 原理简介和 DDP 并行实践
本文介绍多卡并行原理,并用一个简单的例子演示 Pytorch 中的 DDP 多卡并行代码写法
2023-09-11 21:45:48 829
原创 Pytorch入门(6)—— 梯度计算控制
本文计算控制 Pytorch 中梯度计算的集中方法,包括设置 tensor.requires_grad 字段以及三种梯度计算模式,还会介绍容易与之混淆的模型评估模式
2023-09-11 07:43:17 700
原创 RL 实践(7)—— CartPole【TRPO & PPO】
本文介绍 PPO 这个 online RL 的经典算法,并在 CartPole-V0 上进行测试。由于 PPO 是源自 TRPO 的,因此也会在原理部分介绍 TRPO
2023-08-15 11:51:47 619
原创 minGPT 代码详解(训练 GPT 模型执行两位数加法)
minGPT 是 GPT 模型的一个开源实现,因简洁干净解释性强而颇具教育意义。本文对该开源库实现的 GPT 代码进行详解,并给出一个使用它训练 GPT 模型计算两位数加法的例子
2023-07-31 04:59:31 2221 2
原创 RL 实践(6)—— CartPole【REINFORCE with baseline & A2C】
本文介绍 REINFORCE with baseline 和 A2C 这两个带 baseline 的策略梯度方法,并在 CartPole-V0 上验证它们和无 baseline 的原始方法 REINFORCE & Actor-Critic 的优势
2023-07-28 20:17:56 478 2
原创 RL 实践(5)—— 二维滚球环境【REINFORCE & Actor-Critic】
本文介绍如何用 REINFORCE 和 Actor-Critic 这两个策略梯度方法解二维滚球问题
2023-07-26 17:22:23 260
原创 RL 实践(4)—— 二维滚球环境【DQN & Double DQN & Dueling DQN】
本文介绍如何用 DQN 及它的两个改进 Double DQN & Dueling DQN 解二维滚球问题
2023-07-22 15:25:33 269
原创 论文速览【Offline RL】—— 【CQL】Conservative Q-Learning for Offline Reinforcement Learning
标题:Conservative Q-Learning for Offline Reinforcement Learning;发表:NIPS 2020;领域:离线强化学习(offline/batch RL)—— RL-Based
2023-07-08 08:51:13 422
原创 论文速览【序列模型GPT】—— 【Transformer-XL】Attentive Language Models Beyond a Fixed-Length Context
标题:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context;发表:ACL 2019;领域:Transformer (decoder) 改进
2023-06-26 22:07:03 479 6
原创 论文速览【Offline RL】——【IQL】Offline reinforcement learning with implicit Q-Learning
【速览】标题:Offline reinforcement learning with implicit Q-Learning;发表:ICLR 2022;领域:离线强化学习(offline/batch RL)—— IL-Based
2023-02-06 15:05:20 1372 1
原创 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation
标题:Offline RL Without Off-Policy Evaluation;发表:NIPS 2021;领域:离线强化学习(offline/batch RL)—— RL-Based / One-step
2023-01-30 03:38:29 762
原创 论文理解【Offline RL】——【BooT】Bootstrapped Transformer for Offline Reinforcement Learning
标题:Bootstrapped Transformer for Offline Reinforcement Learning;发表:NIPS 2022;领域:离线强化学习(offline/batch RL)—— Transformer-Based / 数据增强
2023-01-12 18:34:23 384
原创 论文理解【Offline RL】——【TT】Offline Reinforcement Learning as One Big Sequence Modeling Problem
标题:Offline Reinforcement Learning as One Big Sequence Modeling Problem;发表:NIPS 2021;领域:离线强化学习(offline/batch RL)—— Transformer-Based / Model-Based
2023-01-08 00:01:04 658 7
原创 论文理解【Offline RL】——【DT】Decision Transformer: Reinforcement Learning via Sequence Modeling
标题:Decision Transformer: Reinforcement Learning via Sequence Modeling;发表:NIPS 2021;领域:离线强化学习(offline/batch RL)—— Transformer Based / Hindsight 监督思想
2022-12-23 04:01:24 1486
原创 RL 实践(3)—— 悬崖漫步【QLearning & Sarsa & 各种变体】
介绍 Sarsa、Expected Sarsa、N-Step Sarsa、N-Step Tree Backup、Q-Learning、Double Q-Learning 等六种经典表格型 TD Learning 算法,给出完整代码,并在自定义的经典悬崖漫步环境中进行性能对比
2022-12-17 20:30:34 2508 6
原创 论文理解【Offline RL】——【RvS】What is Essential for Offline RL via Supervised Learning?
RvS: What is Essential for Offline RL via Supervised Learning?;ICLR 2022;离线强化学习(offline/batch RL)—— Hindsight 监督思想
2022-12-12 13:48:45 623
原创 论文理解【Offline RL】——【BCQ】Off-Policy Deep Reinforcement Learning without Exploration
Off-Policy Deep Reinforcement Learning without Exploration;ICML 2019;离线强化学习(offline/batch RL)—— RL-Based 策略约束
2022-12-08 17:59:05 771
原创 序列模型(2)—— 快速串联 RNN / LSTM / Attention / transformer / BERT / GPT
快速串联 RNN / LSTM / Attention / transformer / BERT / GPT
2022-12-02 21:33:11 3659 9
原创 序列模型(1)—— 难处理的序列数据
生活中常见的股价曲线等时序数据、文本音视频等结构化数据都是 “序列数据”,在机器学习中处理序列数据,需要新的统计工具和网络结构
2022-11-01 01:56:45 1249
原创 RL gym 环境(3)—— 环境向量化(批量训练)
本文介绍如何在 gym 套件中训练向量化的环境,并通过异步向量化多进程并行运算提高训练效率
2022-10-28 13:14:08 1499
通信协议.cpp
2019-08-01
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人