自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

佚失的诗篇

原创 Pytorch入门（7）—— 梯度累加（Gradient Accumulation）

本文介绍梯度累加技巧及其pytorch实现。该技巧通过延迟参数更新时机，允许模型在显存容量有限时使用更大的等效batch size进行训练

2024-05-24 17:43:30 690

原创模型预测控制MPC（2）—— 无约束线性MPC

介绍无约束线性MPC的问题建模，求解方法和稳定性分析

2024-04-15 12:46:17 941 2

原创模型预测控制MPC（1）—— 基础概念

介绍模型预测的基本概念

2024-04-15 04:50:54 976

原创力扣面试经典150 —— 21-25题

力扣150题21~25

2024-03-20 10:12:48 870

原创【随笔】2048 创作纪念日

2048创作纪念日

2024-03-13 10:56:05 386

原创力扣面试经典150 —— 16-20题

力扣150题16-20

2024-03-13 07:21:41 980

原创力扣面试经典150 —— 11-15题

力扣150题11-15

2024-03-09 07:26:03 1013

原创力扣面试经典150 —— 6-10题

力扣150题6-10

2024-03-08 05:11:10 930

原创力扣面试经典150 —— 1-5题

力扣150题1-5

2024-02-23 12:15:17 1343

原创从费舍尔信息矩阵（Fisher Information Matrix, FIM）到自然梯度法

本文以自然梯度法的推导为脉络，贯穿黎曼空间、黎曼流形、黎曼度量、费舍尔信息矩阵、KL 散度和自然梯度法等概念。这是 TRPO 算法理论的重要基础

2024-01-18 09:01:19 1360

原创序列模型（4）—— Scaling Laws

本文介绍 LLM 训练过程中重要的经验规律 Scaling Laws，它可以指导我们如何最大化训练效率，我们还可以借助它通过小规模实验预测大模型的性能表现

2024-01-10 04:40:46 1627

原创序列模型（3）—— LLM的参数量和计算量

本文说明重要结论：设模型参数量为 N，训练数据量（Token）为 D，LLM训练中计算量（FLOPs）C ≈ 6ND

2024-01-07 09:47:59 1927

原创项目demo —— GPT 聊天机器人

本文介绍我基于 Openai GPT API 开发的 telegram 聊天机器人。该 bot 具有催眠聊天、图像生成、语音输入输出等多模态交互能力，代码开源

2023-11-29 19:54:50 2760 9

原创论文速览【ML4CO】—— 【Ptr-Net】Pointer Networks

标题：Pointer Networks；发表：NIPS 2015；领域：序列模型（seq2seq）改进 / 深度学习解决组合优化问题

2023-09-25 20:27:46 348 2

原创 Pytorch 多卡并行（3）—— 使用 DDP 加速 minGPT 训练

本文介绍如何使用 DDP 和混合精度训练方法来高效地训练一个 MinGPT 模型

2023-09-12 15:37:30 1059 2

原创 Pytorch 多卡并行（2）—— 使用 torchrun 进行容错处理

本文介绍如何使用 torchrun 框架改写 DDP 单机多卡并行代码，增强容错性和稳定性

2023-09-12 12:48:13 5380 7

原创 Pytorch 多卡并行（1）—— 原理简介和 DDP 并行实践

本文介绍多卡并行原理，并用一个简单的例子演示 Pytorch 中的 DDP 多卡并行代码写法

2023-09-11 21:45:48 829

原创 Pytorch入门（6）—— 梯度计算控制

本文计算控制 Pytorch 中梯度计算的集中方法，包括设置 tensor.requires_grad 字段以及三种梯度计算模式，还会介绍容易与之混淆的模型评估模式

2023-09-11 07:43:17 700

原创在 Pytorch 中使用 TensorBoard

本文介绍 Pytorch 中 TensorBoard 的用法

2023-08-24 20:07:47 1368

原创 RL 实践（7）—— CartPole【TRPO & PPO】

本文介绍 PPO 这个 online RL 的经典算法，并在 CartPole-V0 上进行测试。由于 PPO 是源自 TRPO 的，因此也会在原理部分介绍 TRPO

2023-08-15 11:51:47 619

原创【随笔】五周年创作纪念日

五周年创作纪念日，分享我的学习历程

2023-08-03 14:40:22 272

原创 minGPT 代码详解（训练 GPT 模型执行两位数加法）

minGPT 是 GPT 模型的一个开源实现，因简洁干净解释性强而颇具教育意义。本文对该开源库实现的 GPT 代码进行详解，并给出一个使用它训练 GPT 模型计算两位数加法的例子

2023-07-31 04:59:31 2221 2

原创 RL 实践（6）—— CartPole【REINFORCE with baseline & A2C】

本文介绍 REINFORCE with baseline 和 A2C 这两个带 baseline 的策略梯度方法，并在 CartPole-V0 上验证它们和无 baseline 的原始方法 REINFORCE & Actor-Critic 的优势

2023-07-28 20:17:56 478 2

原创 RL 实践（5）—— 二维滚球环境【REINFORCE & Actor-Critic】

本文介绍如何用 REINFORCE 和 Actor-Critic 这两个策略梯度方法解二维滚球问题

2023-07-26 17:22:23 260

原创 RL 实践（4）—— 二维滚球环境【DQN & Double DQN & Dueling DQN】

本文介绍如何用 DQN 及它的两个改进 Double DQN & Dueling DQN 解二维滚球问题

2023-07-22 15:25:33 269

原创论文速览【Offline RL】—— 【CQL】Conservative Q-Learning for Offline Reinforcement Learning

标题：Conservative Q-Learning for Offline Reinforcement Learning；发表：NIPS 2020；领域：离线强化学习（offline/batch RL）—— RL-Based

2023-07-08 08:51:13 422

原创论文速览【序列模型GPT】—— 【Transformer-XL】Attentive Language Models Beyond a Fixed-Length Context

标题：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context；发表：ACL 2019；领域：Transformer (decoder) 改进

2023-06-26 22:07:03 479 6

原创机器学习实用工具 Wandb（1）—— 实验追踪

介绍如何使用 wandb 工具追踪实验过程

2023-02-08 23:43:52 865 1

原创论文速览【Offline RL】——【IQL】Offline reinforcement learning with implicit Q-Learning

【速览】标题：Offline reinforcement learning with implicit Q-Learning；发表：ICLR 2022；领域：离线强化学习（offline/batch RL）—— IL-Based

2023-02-06 15:05:20 1372 1

原创论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation

标题：Offline RL Without Off-Policy Evaluation；发表：NIPS 2021；领域：离线强化学习（offline/batch RL）—— RL-Based / One-step

2023-01-30 03:38:29 762

原创论文理解【Offline RL】——【BooT】Bootstrapped Transformer for Offline Reinforcement Learning

标题：Bootstrapped Transformer for Offline Reinforcement Learning；发表：NIPS 2022；领域：离线强化学习（offline/batch RL）—— Transformer-Based / 数据增强

2023-01-12 18:34:23 384

原创论文理解【Offline RL】——【TT】Offline Reinforcement Learning as One Big Sequence Modeling Problem

标题：Offline Reinforcement Learning as One Big Sequence Modeling Problem；发表：NIPS 2021；领域：离线强化学习（offline/batch RL）—— Transformer-Based / Model-Based

2023-01-08 00:01:04 658 7

原创论文理解【Offline RL】——【DT】Decision Transformer: Reinforcement Learning via Sequence Modeling

标题：Decision Transformer: Reinforcement Learning via Sequence Modeling；发表：NIPS 2021；领域：离线强化学习（offline/batch RL）—— Transformer Based / Hindsight 监督思想

2022-12-23 04:01:24 1486

原创 RL 实践（3）—— 悬崖漫步【QLearning & Sarsa & 各种变体】

介绍 Sarsa、Expected Sarsa、N-Step Sarsa、N-Step Tree Backup、Q-Learning、Double Q-Learning 等六种经典表格型 TD Learning 算法，给出完整代码，并在自定义的经典悬崖漫步环境中进行性能对比

2022-12-17 20:30:34 2508 6

原创论文理解【Offline RL】——【RvS】What is Essential for Offline RL via Supervised Learning?

RvS: What is Essential for Offline RL via Supervised Learning?；ICLR 2022；离线强化学习（offline/batch RL）—— Hindsight 监督思想

2022-12-12 13:48:45 623

原创论文理解【Offline RL】——【BCQ】Off-Policy Deep Reinforcement Learning without Exploration

Off-Policy Deep Reinforcement Learning without Exploration；ICML 2019；离线强化学习（offline/batch RL）—— RL-Based 策略约束

2022-12-08 17:59:05 771

原创序列模型（2）—— 快速串联 RNN / LSTM / Attention / transformer / BERT / GPT

快速串联 RNN / LSTM / Attention / transformer / BERT / GPT

2022-12-02 21:33:11 3659 9

原创从模型容量的视角看监督学习

从模型容量的视角分析监督学习的本质；重新理解正则化、归纳偏置等概念，并从中得到启发

2022-11-30 03:28:24 884

原创序列模型（1）—— 难处理的序列数据

生活中常见的股价曲线等时序数据、文本音视频等结构化数据都是 “序列数据”，在机器学习中处理序列数据，需要新的统计工具和网络结构

2022-11-01 01:56:45 1249

原创 RL gym 环境（3）—— 环境向量化（批量训练）

本文介绍如何在 gym 套件中训练向量化的环境，并通过异步向量化多进程并行运算提高训练效率

2022-10-28 13:14:08 1499

snakeDB.asm

详见：https://blog.csdn.net/wxc971231/article/details/104003616

2020-08-06

通信协议.cpp

在嵌入式编程时，常常会遇到需要做数据通信的场景。单片机往往只支持一次8位的数据传递，为了传输较长的数据类型，只能先在主机将数据拆分，再在从机重新组合，这里介绍一种带通讯协议的float型数据传输方法，具体见https://blog.csdn.net/wxc971231/article/details/90377296

2019-08-01

TIM4C123G.zip

史上最全TM4C123G相关资料，包括手册、TIVA官方例程、keil工程模板、引脚分配表、函数手册、我自己写的几个实验等等。

2019-07-08

python情人节绘图程序

用python的turtle库实现的情人节绘图程序，包含随机绘制彩色爱心和一个蜡笔小新头像

2019-05-27

栈实现中缀表达式计算

中缀表达式的计算程序，手动实现运算数栈和运算符栈。

2019-02-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示

确定要删除当前文章？

取消删除