自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(305)
  • 资源 (5)
  • 收藏
  • 关注

原创 力扣面试经典150 —— 21-25题

力扣150题21~25

2024-03-20 10:12:48 832

原创 【随笔】2048 创作纪念日

2048创作纪念日

2024-03-13 10:56:05 363

原创 力扣面试经典150 —— 16-20题

力扣150题16-20

2024-03-13 07:21:41 953

原创 力扣面试经典150 —— 11-15题

力扣150题11-15

2024-03-09 07:26:03 990

原创 力扣面试经典150 —— 6-10题

力扣150题6-10

2024-03-08 05:11:10 919

原创 力扣面试经典150 —— 1-5题

力扣150题1-5

2024-02-23 12:15:17 1313

原创 从费舍尔信息矩阵(Fisher Information Matrix, FIM)到自然梯度法

本文以自然梯度法的推导为脉络,贯穿黎曼空间、黎曼流形、黎曼度量、费舍尔信息矩阵、KL 散度和自然梯度法等概念。这是 TRPO 算法理论的重要基础

2024-01-18 09:01:19 945

原创 序列模型(4)—— Scaling Laws

本文介绍 LLM 训练过程中重要的经验规律 Scaling Laws,它可以指导我们如何最大化训练效率,我们还可以借助它通过小规模实验预测大模型的性能表现

2024-01-10 04:40:46 1523

原创 序列模型(3)—— LLM的参数量和计算量

本文说明重要结论:设模型参数量为 N,训练数据量(Token)为 D,LLM训练中计算量(FLOPs)C ≈ 6ND

2024-01-07 09:47:59 1522

原创 项目demo —— GPT 聊天机器人

本文介绍我基于 Openai GPT API 开发的 telegram 聊天机器人。该 bot 具有催眠聊天、图像生成、语音输入输出等多模态交互能力,代码开源

2023-11-29 19:54:50 2698 9

原创 论文速览【ML4CO】—— 【Ptr-Net】Pointer Networks

标题:Pointer Networks;发表:NIPS 2015;领域:序列模型(seq2seq)改进 / 深度学习解决组合优化问题

2023-09-25 20:27:46 327 2

原创 Pytorch 多卡并行(3)—— 使用 DDP 加速 minGPT 训练

本文介绍如何使用 DDP 和混合精度训练方法来高效地训练一个 MinGPT 模型

2023-09-12 15:37:30 908 2

原创 Pytorch 多卡并行(2)—— 使用 torchrun 进行容错处理

本文介绍如何使用 torchrun 框架改写 DDP 单机多卡并行代码,增强容错性和稳定性

2023-09-12 12:48:13 4280 5

原创 Pytorch 多卡并行(1)—— 原理简介和 DDP 并行实践

本文介绍多卡并行原理,并用一个简单的例子演示 Pytorch 中的 DDP 多卡并行代码写法

2023-09-11 21:45:48 688

原创 Pytorch入门(6)—— 梯度计算控制

本文计算控制 Pytorch 中梯度计算的集中方法,包括设置 tensor.requires_grad 字段以及三种梯度计算模式,还会介绍容易与之混淆的模型评估模式

2023-09-11 07:43:17 556

原创 在 Pytorch 中使用 TensorBoard

本文介绍 Pytorch 中 TensorBoard 的用法

2023-08-24 20:07:47 1324

原创 RL 实践(7)—— CartPole【TRPO & PPO】

本文介绍 PPO 这个 online RL 的经典算法,并在 CartPole-V0 上进行测试。由于 PPO 是源自 TRPO 的,因此也会在原理部分介绍 TRPO

2023-08-15 11:51:47 474

原创 【随笔】五周年创作纪念日

五周年创作纪念日,分享我的学习历程

2023-08-03 14:40:22 254

原创 minGPT 代码详解(训练 GPT 模型执行两位数加法)

minGPT 是 GPT 模型的一个开源实现,因简洁干净解释性强而颇具教育意义。本文对该开源库实现的 GPT 代码进行详解,并给出一个使用它训练 GPT 模型计算两位数加法的例子

2023-07-31 04:59:31 1869 2

原创 RL 实践(6)—— CartPole【REINFORCE with baseline & A2C】

本文介绍 REINFORCE with baseline 和 A2C 这两个带 baseline 的策略梯度方法,并在 CartPole-V0 上验证它们和无 baseline 的原始方法 REINFORCE & Actor-Critic 的优势

2023-07-28 20:17:56 412 2

原创 RL 实践(5)—— 二维滚球环境【REINFORCE & Actor-Critic】

本文介绍如何用 REINFORCE 和 Actor-Critic 这两个策略梯度方法解二维滚球问题

2023-07-26 17:22:23 221

原创 RL 实践(4)—— 二维滚球环境【DQN & Double DQN & Dueling DQN】

本文介绍如何用 DQN 及它的两个改进 Double DQN & Dueling DQN 解二维滚球问题

2023-07-22 15:25:33 226

原创 论文速览【Offline RL】—— 【CQL】Conservative Q-Learning for Offline Reinforcement Learning

标题:Conservative Q-Learning for Offline Reinforcement Learning;发表:NIPS 2020;领域:离线强化学习(offline/batch RL)—— RL-Based

2023-07-08 08:51:13 326

原创 论文速览【序列模型GPT】—— 【Transformer-XL】Attentive Language Models Beyond a Fixed-Length Context

标题:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context;发表:ACL 2019;领域:Transformer (decoder) 改进

2023-06-26 22:07:03 454 6

原创 机器学习实用工具 Wandb(1)—— 实验追踪

介绍如何使用 wandb 工具追踪实验过程

2023-02-08 23:43:52 735 1

原创 论文速览【Offline RL】——【IQL】Offline reinforcement learning with implicit Q-Learning

【速览】标题:Offline reinforcement learning with implicit Q-Learning;发表:ICLR 2022;领域:离线强化学习(offline/batch RL)—— IL-Based

2023-02-06 15:05:20 1248 1

原创 论文理解【Offline RL】——【One-step】Offline RL Without Off-Policy Evaluation

标题:Offline RL Without Off-Policy Evaluation;发表:NIPS 2021;领域:离线强化学习(offline/batch RL)—— RL-Based / One-step

2023-01-30 03:38:29 737

原创 论文理解【Offline RL】——【BooT】Bootstrapped Transformer for Offline Reinforcement Learning

标题:Bootstrapped Transformer for Offline Reinforcement Learning;发表:NIPS 2022;领域:离线强化学习(offline/batch RL)—— Transformer-Based / 数据增强

2023-01-12 18:34:23 381

原创 论文理解【Offline RL】——【TT】Offline Reinforcement Learning as One Big Sequence Modeling Problem

标题:Offline Reinforcement Learning as One Big Sequence Modeling Problem;发表:NIPS 2021;领域:离线强化学习(offline/batch RL)—— Transformer-Based / Model-Based

2023-01-08 00:01:04 625 7

原创 论文理解【Offline RL】——【DT】Decision Transformer: Reinforcement Learning via Sequence Modeling

标题:Decision Transformer: Reinforcement Learning via Sequence Modeling;发表:NIPS 2021;领域:离线强化学习(offline/batch RL)—— Transformer Based / Hindsight 监督思想

2022-12-23 04:01:24 1370

原创 RL 实践(3)—— 悬崖漫步【QLearning & Sarsa & 各种变体】

介绍 Sarsa、Expected Sarsa、N-Step Sarsa、N-Step Tree Backup、Q-Learning、Double Q-Learning 等六种经典表格型 TD Learning 算法,给出完整代码,并在自定义的经典悬崖漫步环境中进行性能对比

2022-12-17 20:30:34 2175 6

原创 论文理解【Offline RL】——【RvS】What is Essential for Offline RL via Supervised Learning?

RvS: What is Essential for Offline RL via Supervised Learning?;ICLR 2022;离线强化学习(offline/batch RL)—— Hindsight 监督思想

2022-12-12 13:48:45 591

原创 论文理解【Offline RL】——【BCQ】Off-Policy Deep Reinforcement Learning without Exploration

Off-Policy Deep Reinforcement Learning without Exploration;ICML 2019;离线强化学习(offline/batch RL)—— RL-Based 策略约束

2022-12-08 17:59:05 705

原创 序列模型(2)—— 快速串联 RNN / LSTM / Attention / transformer / BERT / GPT

快速串联 RNN / LSTM / Attention / transformer / BERT / GPT

2022-12-02 21:33:11 3437 9

原创 从模型容量的视角看监督学习

从模型容量的视角分析监督学习的本质;重新理解正则化、归纳偏置等概念,并从中得到启发

2022-11-30 03:28:24 876

原创 序列模型(1)—— 难处理的序列数据

生活中常见的股价曲线等时序数据、文本音视频等结构化数据都是 “序列数据”,在机器学习中处理序列数据,需要新的统计工具和网络结构

2022-11-01 01:56:45 1103

原创 RL gym 环境(3)—— 环境向量化(批量训练)

本文介绍如何在 gym 套件中训练向量化的环境,并通过异步向量化多进程并行运算提高训练效率

2022-10-28 13:14:08 1382

原创 RL gym 环境(2)—— 自定义环境

通过构造经典的悬崖漫步(Cliff Walking)环境,来说明 gym 中环境的自定义和使用方法

2022-10-25 23:43:51 2136 1

原创 RL gym 环境(1)—— 安装和基础使用

本文介绍 OpenAI gym 环境套件的安装、基础使用方法及核心API,附代码示例

2022-10-19 11:12:19 1408

原创 论文理解【Offline RL】—— A dataset perspective on offline reinforcement learning

标题:A dataset perspective on offline reinforcement learning;发表:NIPS 2021 Workshop;领域:Offline RL —— 数据集分析

2022-10-18 16:13:13 845

snakeDB.asm

详见:https://blog.csdn.net/wxc971231/article/details/104003616

2020-08-06

通信协议.cpp

在嵌入式编程时,常常会遇到需要做数据通信的场景。单片机往往只支持一次8位的数据传递,为了传输较长的数据类型,只能先在主机将数据拆分,再在从机重新组合,这里介绍一种带通讯协议的float型数据传输方法,具体见https://blog.csdn.net/wxc971231/article/details/90377296

2019-08-01

TIM4C123G.zip

史上最全TM4C123G相关资料,包括手册、TIVA官方例程、keil工程模板、引脚分配表、函数手册、我自己写的几个实验等等。

2019-07-08

python情人节绘图程序

用python的turtle库实现的情人节绘图程序,包含随机绘制彩色爱心和一个蜡笔小新头像

2019-05-27

栈实现中缀表达式计算

中缀表达式的计算程序,手动实现运算数栈和运算符栈。

2019-02-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除